ChatPaper.aiChatPaper

Ingegneria del caos completamente automatizzata basata su LLM: Verso l'abilitazione di chiunque a costruire sistemi software resilienti a basso costo

LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

November 11, 2025
Autori: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI

Abstract

Il Chaos Engineering (CE) è una tecnica ingegneristica finalizzata a migliorare la resilienza dei sistemi distribuiti. Consiste nell'iniettare intenzionalmente dei guasti in un sistema per verificarne la resilienza, individuare le debolezze e risolverle prima che causino malfunzionamenti in produzione. I moderni strumenti di CE automatizzano l'esecuzione di esperimenti di CE predefiniti. Tuttavia, la pianificazione di tali esperimenti e il miglioramento del sistema basato sui risultati sperimentali rimangono attività manuali. Questi processi richiedono un notevole impiego di manodopera e competenze multidisciplinari. Per affrontare queste sfide e consentire a chiunque di costruire sistemi resilienti a basso costo, questo articolo propone ChaosEater, un sistema che automatizza l'intero ciclo di CE utilizzando Large Language Models (LLM). Il sistema predefinisce un flusso di lavoro agente secondo un ciclo di CE sistematico e assegna i processi suddivisi all'interno del flusso di lavoro agli LLM. ChaosEater è orientato al CE per sistemi software basati su Kubernetes. Pertanto, gli LLM in ChaosEater completano i cicli di CE attraverso attività di ingegneria del software, inclusa la definizione dei requisiti, la generazione di codice, i test e il debugging. Valutiamo ChaosEater attraverso case study su sistemi Kubernetes di piccole e grandi dimensioni. I risultati dimostrano che esso completa costantemente cicli di CE ragionevoli con costi temporali e monetivi significativamente bassi. I suoi cicli sono inoltre convalidati qualitativamente da ingegneri umani e da LLM.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.
PDF33December 1, 2025