ChatPaper.aiChatPaper

Ingénierie du chaos entièrement automatisée par LLM : Vers la démocratisation de la construction de systèmes logiciels résilients à faible coût

LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

November 11, 2025
papers.authors: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI

papers.abstract

L'ingénierie du chaos (CE) est une technique d'ingénierie visant à améliorer la résilience des systèmes distribués. Elle consiste à injecter intentionnellement des fautes dans un système pour tester sa résilience, identifier ses points faibles et y remédier avant qu'ils ne provoquent des défaillances en production. Les outils récents de CE automatisent l'exécution d'expériences de CE prédéfinies. Cependant, la planification de ces expériences et l'amélioration du système basée sur les résultats expérimentaux demeurent manuelles. Ces processus sont laborieux et nécessitent une expertise multidisciplinaire. Pour relever ces défis et permettre à quiconque de construire des systèmes résilients à faible coût, cet article propose ChaosEater, un système qui automatise l'ensemble du cycle de CE grâce aux Grands Modèles de Langage (LLM). Il prédéfinit un workflow agentique selon un cycle de CE systématique et assigne les processus subdivisés au sein du workflow à des LLM. ChaosEater cible la CE pour les systèmes logiciels construits sur Kubernetes. Par conséquent, les LLM dans ChaosEater complètent les cycles de CE via des tâches de génie logiciel, incluant la définition des exigences, la génération de code, les tests et le débogage. Nous évaluons ChaosEater par des études de cas sur des systèmes Kubernetes à petite et grande échelle. Les résultats démontrent qu'il complète systématiquement des cycles de CE raisonnables avec des coûts temporels et monétaires significativement bas. Ses cycles sont également validés qualitativement par des ingénieurs humains et des LLM.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.
PDF33December 1, 2025