Volledig geautomatiseerde chaos-engineering aangedreven door LLM: Op weg naar veerkrachtige softwaresystemen voor iedereen tegen lage kosten
LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost
November 11, 2025
Auteurs: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI
Samenvatting
Chaos Engineering (CE) is een engineeringtechniek die gericht is op het verbeteren van de veerkracht van gedistribueerde systemen. Hierbij worden opzettelijk fouten in een systeem geïnjecteerd om de veerkracht te testen, zwakke plekken bloot te leggen en deze aan te pakken voordat ze tot storingen in de productieomgeving leiden. Moderne CE-tools automatiseren de uitvoering van vooraf gedefinieerde CE-experimenten. Het plannen van dergelijke experimenten en het verbeteren van het systeem op basis van de experimentele resultaten blijft echter een handmatig proces. Deze processen zijn arbeidsintensief en vereisen expertise op meerdere domeinen. Om deze uitdagingen aan te pakken en het voor iedereen mogelijk te maken om tegen lage kosten veerkrachtige systemen te bouwen, stelt dit artikel ChaosEater voor, een systeem dat de volledige CE-cyclus automatiseert met behulp van Large Language Models (LLM's). Het definieert een agent-gebaseerde workflow volgens een systematische CE-cyclus en wijst onderverdeelde processen binnen de workflow toe aan LLM's. ChaosEater richt zich op CE voor softwaresystemen die zijn gebouwd op Kubernetes. Daarom voltooien de LLM's in ChaosEater CE-cycli door middel van software-engineeringtaken, waaronder requirementdefinitie, codegeneratie, testen en debuggen. We evalueren ChaosEater via casestudies op kleinschalige en grootschalige Kubernetes-systemen. De resultaten tonen aan dat het consistent redelijke CE-cycli voltooit met aanzienlijk lage tijds- en geldkosten. De cycli worden ook kwalitatief gevalideerd door menselijke engineers en LLM's.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.