Engenharia do Caos Totalmente Automatizada com LLM: Rumo à Capacitação de Qualquer Pessoa para Construir Sistemas de Software Resilientes a Baixo Custo
LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost
November 11, 2025
Autores: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI
Resumo
A Engenharia do Caos (EC) é uma técnica de engenharia que visa melhorar a resiliência de sistemas distribuídos. Ela envolve a injeção intencional de falhas em um sistema para testar sua resiliência, descobrir fragilidades e corrigi-las antes que causem falhas em produção. Ferramentas modernas de EC automatizam a execução de experimentos de EC pré-definidos. No entanto, o planejamento desses experimentos e a melhoria do sistema com base nos resultados experimentais ainda permanecem manuais. Esses processos são intensivos em mão de obra e exigem expertise multidisciplinar. Para enfrentar esses desafios e permitir que qualquer pessoa construa sistemas resilientes a baixo custo, este artigo propõe o ChaosEater, um sistema que automatiza todo o ciclo de EC com Modelos de Linguagem de Grande Escala (LLMs). Ele pré-define um fluxo de trabalho agentivo de acordo com um ciclo sistemático de EC e atribui processos subdivididos dentro do fluxo aos LLMs. O ChaosEater tem como alvo a EC para sistemas de software construídos em Kubernetes. Portanto, os LLMs no ChaosEater completam ciclos de EC por meio de tarefas de engenharia de software, incluindo definição de requisitos, geração de código, teste e depuração. Avaliamos o ChaosEater por meio de estudos de caso em sistemas Kubernetes de pequena e grande escala. Os resultados demonstram que ele completa consistentemente ciclos de EC razoáveis com custos de tempo e monetários significativamente baixos. Seus ciclos também são validados qualitativamente por engenheiros humanos e LLMs.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.