Indisponibilité majeure d’Office 365

La suite de Microsoft en ligne, Office 365, a subi les 23 et 24 Janvier derniers de multiples coupures de service. Les retours (nombreux) des utilisateurs mentionnent que Outlook et Exchange ont été impactés, à travers plusieurs protocoles.

Il est fait mention d’impossibilité d’accéder à Office 365, de ralentissement dans le traitement d’emails (jusqu’à 3h de retard pour un email), d’emails supprimés, et de répétitions d’emails (un unique envoi occasionnant de multiples réceptions par un même utilisateur).

Après plusieurs heures de rupture de service, le compte Twitter de Microsoft « Microsoft 365 Status » (qui fournit des mises à jour sur les incidents du service Microsoft 365) a tweeté le 24 janvier à 1:53 AM :

Mais dans son centre d’administration (section du portail d’administration pour les administrateurs systèmes clients), l’incident EX172491 indiqué dans l’annonce publique est resté invisible pendant plusieurs heures et a mis beaucoup trop de temps à apparaitre (on parle de 5-6 heures).

De même, le dashboard officiel de Microsoft (indiquant l’état du service d’Office 365) est resté jusqu’à 6h après le début de l’incident au « vert », suscitant la publication de nombreux tweets à propos de l’opacité de la communication de Microsoft.

A ce moment-là, la carte de Downdetector (site web qui référence les noms de domaine up/down sur la base de déclaration des utilisateurs) indiquait :

J’ai croisé sur Twitter plusieurs personnes de Finlande, Suède, Angleterre, Arabie Saoudite, se plaignant de la mauvaise communication de Microsoft face à la rupture de service pendant leurs heures ouvrées (toute la journée pour l’Europe).

Après plusieurs heures d'enquête, Microsoft a tweeté :

Puis, une autre explication ne s’est pas fait attendre : il y aurait eu une file d'attente plus importante que prévu dans l'infrastructure d'authentification, « ce qui pourrait être la cause de l'impact ». Cette dernière s’est confirmée plus tard, avec la déclaration : Les données de télémétrie de Microsoft indiquent des connexions « time out » dans l'infrastructure d'authentification d’Exchange, ce qui a un impact.

Enfin, un porte-parole de Microsoft s’est exprimé le 25 Janvier à 22h55 (presque 40h après la précédente annonce) pour indiquer :

“We’re working to resolve difficulties a limited subset of enterprise customers in Europe are experiencing when attempting to access Exchange Online. Consumers are not affected. Admins can find status updates on the Admin Center.”

Chacun interprètera ça comme il le souhaite, mais cela ressemble un peu à un déni.

Conclusion :

1-      La communication de Microsoft sur l’incident n’a pas été d’une grande transparence, premièrement, en mettant du temps à publiquement admettre l’incident, puis secondement en tardant à donner des explications techniques.

Ensuite, la communication de Microsoft sur l’étendue de l’impact reste confuse. Qu’en a-t-il été chez vos clients respectifs ?

Il est toujours acceptable pour un client qu’une rupture de service apparaisse. Nul système n’est infaillible. Un manque de communication est cependant toujours nettement moins apprécié. De nombreux cabinets de conseils proposent désormais des prestations spécifiques « conseil à la communication en cas d’incidents majeurs ».

2-      On se rappellera des précédentes ruptures de service chez Microsoft dû à des problèmes avec la double authentification de fin novembre dernier (un premier, puis un second).

3-      Les analyses de risques effectuées au début des projets de migration dans le Cloud ne doivent pas négliger les statistiques d’indisponibilité de service, dont la probabilité d’occurrence est souvent présentée comme largement diminuée, voir négligeable, en utilisant le service d’un « gros » comme Microsoft, Amazon ou Google.

Sont plus souvent mis en avant les risques liés aux problèmes de configuration (notamment les S3 buckets d’AWS, qui ont entraîné de nombreuses fuites de données quand les droits d’accès étaient mal configurés), de souveraineté des données (entre autres, le CLOUD Act aux Etats Unis, il y a un peu moins d’un an), et de violation de la réglementation (assez spécifique), non moins négligeables.