11 mar

Gros bug informatique au gouvernement

Arnaud Brunet Ma vie

Tel était le gros titre des Nouvelles Calédoniennes d'hier (mercredi 10 mars).
Hier les Nouvelles Calédoniennes publié un article sur un incident survenu à la DTSI (Direction des Technologies et des Services de l'Information). Je tenais à réagir à l'article. Avant de lire la suite, je vous conseille de lire l'article.

L'article commence mal :

Gros bug informatique au gouvernement

L'incident n'a rien à voir ni avec un bogue informatique, ni avec les insectes.

Et ça continue :

Un banal incident ...

Je ne sais pas si une alarme incendie peut être considérée comme un "banal incident". Certes les risques d'incendies sont toujours présents mais le déclenchement de l'alarme peut avoir des conséquences désastreuses sur les systèmes informatiques donc dans quasiment toutes les entreprises (en principe une PME qui subit un incendie ne se rétablit pas). En tout cas, c'est la première fois que ça arrive depuis la création de la DTSI.

... arrosant plusieurs serveurs informatiques de la Direction des technologies et des services de l’information, les mettant hors d’usage.

Euh oui. Lorsque l'alarme incendie se déclenche, il y a un système automatique permettant de l'éteindre. Au premier abord, c'est surprenant d'envoyer de l'eau sur les serveurs. Mais en fait, il n'y a pas le tellement le choix. Il existe bien des gaz permettant d'étouffer le feu mais ils sont nuisibles pour l'homme et peuvent entrainer le décès. Est-ce qu'un serveur vaut plus que la vie d'un homme ? Le choix de la DTSI a été de se doter d'une solution qui envoie de l'eau déminéralisé sous la forme d'une brume. A priori d'après les échos que j'ai pu avoir, c'est un système parfaitement courant pour une salle serveur. L'eau déminéralisé est beaucoup moins conductrice d'électricité que l'eau ordinaire et donc les serveurs sont uniquement humidifiés.

... coupant aussitôt l’électricité et la ligne téléphonique du bâtiment.

Euh en fait non. Je trouve que c'est là le point faible de l'installation. L'alarme incendie ne coupe pas directement l'électricité. Donc il a plu dans les salles serveurs alors qu'ils étaient encore sous tension. C'est le directeur encore sur les lieux qui a pris la décision de la couper (et c'est lui même qui a brisé la vitre et appuyer sur le gros bouton rouge).

... précise Charles Vaquier, le directeur

Sans vouloir offenser le journaliste, avant d'écrire un nom on vérifie son orthographe. Le directeur de la DTSI c'est Charles Vakié.

En vingt minutes, le dispositif incendie s’est mis en état de marche dans la salle des machines.

Là surprise ! L'information est confirmé. Il faut presque vingt minutes avant que le système incendie se déclenche complétement. Ça me parait énorme. Quels sont les dégâts que peut faire un incendie pendant 20 minutes ? Je n'en sais absolument rien mais je pense que le terme beaucoup doit être approprié.

En revanche, cet incident banal a causé la pagaille dans le système d’information du gouvernement et des différentes directions concernées.

Je le répète pour moi ce n'est pas banal. Sinon effectivement, c'était la pagaille. La DTSI s'occupe de tout l'informatique du gouvernent de la Nouvelle-Calédonie. Donc quand rien ne marche à la DTSI, les autres directions doivent se passer de leurs outils de travail informatique. Les serveurs étant humidifiés, ils n'ont pas été relancés tout de suite. Ils ont d'abord été séchés, puis il a fallut les redémarrer un part un afin de vérifier leur bon fonctionnement. Puis chacune des applications a été redémarrée progressivement en vérifiant pour chacune l'intégrité des données.

Par mesure de sécurité, l’ensemble des directions territoriales ainsi que la maison mère du gouvernement ont été privés de courriers électroniques ou de messagerie intranet.

Au mon dieu, je n'ai plus accès à mes courriers électroniques, c'est affreux. Effectivement, lorsqu'il n'y a plus d'informatique, il n'y a plus d'informatique : plus de mails, plus d'internet, plus de facebook, plus google, .... Et on ne doit pas avoir le même sens des priorités. Pour reprendre l'exemple de l'article, les douanes doivent dédouaner à la main. Le journaliste ne doit se souvenir de la grève des fonctionnaires de novembre 2008. Sydonia, l'application de gestion des douanes, était tombé pour faute de maintenance, avec pour conséquence, un ralentissement des dédouanements et une accumulation des marchandises sur le port. Bref, je pense que les douanes, les impôts et autres applications critiques sont plus importantes que les mails du monsieur (surement du gouvernement).

Au final, il n'y a pas eu trop de casses, juste quelques alimentations, barrettes de ram et processeurs. La situation a pu être rétablie complétement hier matin.

Pour résumé, voilà ce qui se serait passer (attention, ce n'est pas la version officielle mais des bruits de couloir) :

  1. Lundi soir, en raison d'un dysfonctionnement de la console de supervision, la pré-alarme incendie c'est déclenchée. Les personnes sur place ont fait leur devoir et ont constaté aucun incendie. Ils se sont alors penché sur la console pour éteindre la pré-alarme. Une personne aurait appuyé sur le mauvais bouton, entrainant le déclenchement des douchettes dans la première salle des machines. La pré-alarme n'étant toujours pas coupée, le système anti-incendie s'est mis à fonctionner dans les autres salles machines. Le système n'a pas couper de l'électricité. Elle a été coupé manuellement quelques instants plus tard entrainant l'arrêt brutal des machines.
  2. Mardi toute la journée, les serveurs ont été séchés, puis l'électricité a été remise en route. Le rétablissement du réseau et des serveurs s'est fait progressivement tout au long de la journée en constatant les dégâts. Puis les services ont été démarrées. Rien que pour l'exemple, il a fallut 4 heures à notre DBA (Data Base Administrator, administrateur des bases de données) pour rétablir les bases de données suite à la perte d'un (surement plusieurs, puisqu'ils sont installés en redondance) disques durs. La production était complétement rétablie très tôt le mercredi matin (vers 2 heures du matin)
  3. Mercredi matin, les équipes ont relancés les plateformes de validation et développement. Et mercredi après midi, tous les agents de la DTSI ont pu retourner travailler.

Les équipes d'infrastructure et de productions ont fait vraiment de excellent travail et je pense que qu'une journée et demi d'immobilisation (une journée pour la production) est un délai vraiment court. Comme quoi il y a des gens compétents dans le service public.

Mais ça aurait pu être pire. Imaginé, si tous les serveurs avaient grillés, le délai aurait été astronomique. En effet, il n'existe ni de second site, ni de stock sur le territoire. Les serveurs, il faut les commander en France et le délai habituel est de deux mois. D'après un responsable des serveurs, il suffit que 50% des serveurs soient opérationnelles pour que la DTSI puisse fonctionner complétement mais en mode dégradé.

Je pense que la DTSI va profiter de cette incident (dit banal) pour améliorer la sécurité physique du système d'information du gouvernement de la Nouvelle-Calédonie. La demande d'un second site devrait revenir sur la table.


Un commentaire pour “Gros bug informatique au gouvernement”

  1. JP, le 18 avril 2010 à 4 h 59 min a dit :

    No comment sur les évènements mais merci pour le “Comme quoi il y a des gens compétents dans le service public” :)
    JP

Laissez un commentaire

Veuillez remplir le formulaire suivant et cliquer sur le bouton "Envoyer"