Ingeniería del Caos Totalmente Automatizada Impulsada por LLM: Hacia la Capacitación de Cualquiera para Construir Sistemas de Software Resilientes a Bajo Coste
LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost
November 11, 2025
Autores: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI
Resumen
La Ingeniería del Caos (IC) es una técnica de ingeniería destinada a mejorar la resiliencia de los sistemas distribuidos. Consiste en inyectar fallos intencionadamente en un sistema para probar su resiliencia, descubrir puntos débiles y solucionarlos antes de que provoquen fallos en el entorno de producción. Las herramientas modernas de IC automatizan la ejecución de experimentos de IC predefinidos. Sin embargo, la planificación de dichos experimentos y la mejora del sistema basada en los resultados experimentales siguen siendo procesos manuales. Estos procesos son intensivos en mano de obra y requieren experiencia multidisciplinar. Para abordar estos desafíos y permitir que cualquier persona pueda construir sistemas resilientes a bajo coste, este artículo propone ChaosEater, un sistema que automatiza todo el ciclo de la IC mediante Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). El sistema predefine un flujo de trabajo basado en agentes de acuerdo con un ciclo sistemático de IC y asigna los procesos subdivididos dentro del flujo a los LLMs. ChaosEater se centra en la IC para sistemas de software construidos sobre Kubernetes. Por lo tanto, los LLMs en ChaosEater completan los ciclos de IC a través de tareas de ingeniería de software, que incluyen la definición de requisitos, la generación de código, las pruebas y la depuración. Evaluamos ChaosEater mediante estudios de caso en sistemas Kubernetes de pequeña y gran escala. Los resultados demuestran que completa sistemáticamente ciclos de IC razonables con unos costes temporales y monetarios significativamente bajos. Sus ciclos también son validados cualitativamente por ingenieros humanos y por LLMs.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.