Transformer le chaos en sérénité : le platform engineering comme moteur de robustesse et de confiance.
Cet article est tiré de la conférence de Christophe Rochefolle à l'Alenia Production Tour 2025.
Chaque DSI l’a vécu : malgré les projets, les process et les runbooks, l’incident finit toujours par arriver. La question n’est plus “peut-on l’éviter ?”, mais “sommes-nous prêts quand il surviendra ?”.
Lors de l’Alenia Production Tour, Christophe Rochefolle Randrianandrasana (fondateur de Caos Management) a livré une thèse forte : on développe la sérénité en pratiquant le chaos, et on industrialise la robustesse via le Platform Engineering et une observabilité moderne.
L’objectif n’est pas de créer du désordre, mais d’installer une capacité collective à voir, encaisser, décider et repartir.
L’argument économique est imparable : pour les 2 000 plus grandes entreprises mondiales, l’impact annuel des indisponibilités atteindrait environ 400 milliards.
Exemples : Meta a perdu ~100 M$ pour 2 h de perturbation (2024) ; Amazon ~34 M$ pour 1 h (2021) ; au pic du 11/11, Alibaba pourrait perdre 26,5 Md$ en 20 min de panne. Et pour ceux qui relativisent “5 minutes”, traduisez-les en ~700 000 € : d’un coup, tout le monde comprend qu’il s’agit d’un sujet business avant d’être technique.
Pour sortir d’une approche naïve des incidents, Christophe mobilise la fenêtre de Johari :
Morale : il y aura des incidents. La seule stratégie rationnelle consiste à mieux les gérer.
Autre cadre mobilisé par le conférencier : la distinction entre simple, compliqué, complexe et chaotique.
En chaos, les recettes “best practices” ne suffisent plus : il faut agir pour revenir vers un domaine complexe où l’on peut à nouveau observer et apprendre. Chercher à “revenir au simple” est un mirage ; l’enjeu est de stabiliser dans la complexité.
Christophe propose de viser la robustesse : stable à court terme, viable à long terme malgré les fluctuations. Pour y parvenir, il transpose cinq principes biologiques à nos SI :
Ces analogies ne sont pas décoratives : elles structurent une ingénierie de la robustesse “by design”.
On ne finance pas des “exercices du vendredi” sans modèle économique. Premier réflexe recommandé : calculer le prix de 5 minutes de downtime pour votre application. Ce KPI unique aligne tout le monde : CFO (arbitrages), Ops (priorités), Produit (valeur perçue).
C’est aussi l’argument-clé pour lancer une démarche chaos après (ou avant) un incident majeur : “Vous ne voulez plus que ça arrive ? Voilà le plan, voilà le ROI.
Le cas Yahoo illustre la partie juridico-réputationnelle : cacher un incident reporte le choc… et l’amplifie au moment d’une due diligence, d’une fusion ou d’une introduction. Les pertes de valeur et litiges associés à la dissimulation dépassent souvent le coût initial de remédiation.
Traduction opérationnelle : gouvernance claire des incidents (détection, qualification, communication, obligations), avec un périmètre légal anticipé.
Nos SI ne sont plus des monolithes isolés : dépendances logicielles, services tiers, API partout.
Résultat : une complexité qui explose et des équipes qu’on tente de rendre “T-shape”, puis “π-shape”… jusqu’à l’absurde. Le platform engineering répond à ce piège :
Cette approche n’est pas un retour aux équipes “prod d’hier” : c’est un accélérateur de résilience au service des produits.
Le monitoring répond à des questions prévues (seuils, métriques connues). En crise, les bonnes questions sont nouvelles ; il est trop tard si vous devez déployer un hotfix juste pour logger davantage. L’observabilité permet d’interroger le système sans redéploiement.
Référence utile : les travaux de Charity Majors sur l’observability engineering. L’idée clé : répondre vite à des questions que vous n’aviez pas imaginées hier.
« Si ce n’est pas cassé, insistez. » L’adage résume l’esprit : expérimenter pour mesurer la vraie tolérance aux pannes. La démarche proposée :
Exemples cités :
La santé mentale et la DX (developer experience) ne sont pas “annexes” : elles font lien entre plateforme et pratiques. Deux convictions :
Les game days rendent l’entraînement désirable (jeu, classement, récompense), diffusent les bons réflexes (observabilité visible, fiches réflexes), et désacralisent la crise.
Quelques principes pour éviter l’“usine à outils” :
Nous ne maîtriserons jamais toutes les causes ; nous pouvons maîtriser notre façon d’y répondre.
C’est le cœur du message : agir pour sortir du chaos, outiller pour voir venir, entraîner pour décider mieux. Les pannes majeures d’acteurs mondiaux (hyperscalers compris) nous rappellent l’évidence : la maturité se prouve en situation, pas dans une procédure.
La bonne nouvelle, c’est que cette maturité s’ingénie : platform engineering pour bâtir la robustesse, observabilité pour comprendre vite, chaos engineering pour vérifier régulièrement que tout cela tient en conditions réelles. Et, au passage, des équipes plus sereines, plus fières, plus efficaces.
Excellence is a habit. En production comme en sécurité, la différence entre subir et choisir se joue avant la crise — et se gagne par entraînement.