ChatPaper.aiChatPaper

Vollständig automatisierte Chaos-Engineering mit LLM-Unterstützung: Auf dem Weg zu kostengünstigen resilienten Softwaresystemen für alle

LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

November 11, 2025
papers.authors: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI

papers.abstract

Chaos Engineering (CE) ist eine Ingenieurtechnik zur Verbesserung der Resilienz verteilter Systeme. Dabei werden gezielt Fehler in ein System injiziert, um seine Widerstandsfähigkeit zu testen, Schwachstellen aufzudecken und diese zu beheben, bevor sie zu Ausfällen in der Produktion führen. Moderne CE-Tools automatisieren die Ausführung vordefinierter CE-Experimente. Die Planung solcher Experimente und die Verbesserung des Systems auf Basis der Ergebnisse bleiben jedoch nach wie vor manuelle Prozesse. Diese Prozesse sind arbeitsintensiv und erfordern Expertise in mehreren Domänen. Um diese Herausforderungen zu bewältigen und es jedem zu ermöglichen, kostengünstig resiliente Systeme zu bauen, schlägt dieser Beitrag ChaosEater vor – ein System, das den gesamten CE-Zyklus mit Large Language Models (LLMs) automatisiert. Es definiert einen agentenbasierten Workflow gemäß einem systematischen CE-Zyklus vor und weist die unterteilten Prozesse innerhalb des Workflows LLMs zu. ChaosEater zielt auf CE für Softwaresysteme ab, die auf Kubernetes aufbauen. Daher erledigen die LLMs in ChaosEater CE-Zyklen durch Software-Engineering-Aufgaben, einschließlich Anforderungsdefinition, Code-Generierung, Testing und Debugging. Wir evaluieren ChaosEater durch Fallstudien an kleinen und großen Kubernetes-Systemen. Die Ergebnisse zeigen, dass es konsistent sinnvolle CE-Zyklen mit deutlich geringeren Zeit- und Geldkosten abschließt. Seine Zyklen werden zudem qualitativ von menschlichen Ingenieuren und LLMs validiert.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.
PDF33December 1, 2025