ChatPaper.aiChatPaper

LLM 기반 완전 자동화 카오스 엔지니어링: 누구나 저비용으로 복원력 있는 소프트웨어 시스템 구축을 가능하게 하는 방향으로

LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

November 11, 2025
저자: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI

초록

카오스 엔지니어링(CE)은 분산 시스템의 복원력을 향상시키기 위한 엔지니어링 기법입니다. 이는 시스템에 의도적으로 결함을 주입하여 그 복원력을 테스트하고, 약점을 발견하며, 프로덕션 환경에서 장애를 일으키기 전에 이를 해결하는 것을 포함합니다. 최근의 CE 도구들은 미리 정의된 CE 실험의 실행을 자동화합니다. 그러나 이러한 실험을 계획하고 실험 결과를 바탕으로 시스템을 개선하는 작업은 여전히 수동으로 이루어집니다. 이러한 과정은 노동 집약적이며 여러 분야의 전문 지식을 요구합니다. 이러한 문제를 해결하고 누구나 낮은 비용으로 복원력 있는 시스템을 구축할 수 있도록 하기 위해, 본 논문은 대규모 언어 모델(LLM)을 활용하여 CE 전체 주기를 자동화하는 시스템인 ChaosEater를 제안합니다. 이는 체계적인 CE 주기에 따라 에이전트 기반 워크플로를 미리 정의하고, 워크플로 내 세분화된 프로세스를 LLM에 할당합니다. ChaosEater는 Kubernetes 위에 구축된 소프트웨어 시스템에 대한 CE를 대상으로 합니다. 따라서 ChaosEater의 LLM은 요구사항 정의, 코드 생성, 테스트, 디버깅을 포함한 소프트웨어 엔지니어링 작업을 통해 CE 주기를 완료합니다. 우리는 소규모 및 대규모 Kubernetes 시스템에 대한 사례 연구를 통해 ChaosEater를 평가합니다. 결과는 이 시스템이 매우 낮은 시간과 금전적 비용으로 합리적인 CE 주기를 지속적으로 완료함을 보여줍니다. 또한 그 주기는 인간 엔지니어와 LLM에 의해 정성적으로 검증됩니다.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.
PDF33December 1, 2025