ChatPaper.aiChatPaper

Полностью автоматизированный хаос-инжиниринг на основе LLM: к созданию доступных систем устойчивого программного обеспечения

LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

November 11, 2025
Авторы: Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri
cs.AI

Аннотация

Инженерия хаоса (ИХ) — это инженерная методика, направленная на повышение устойчивости распределенных систем. Она предполагает преднамеренное внесение сбоев в систему для проверки её устойчивости, выявления слабых мест и их устранения до того, как они приведут к отказам в промышленной эксплуатации. Современные инструменты ИХ автоматизируют выполнение заранее определенных экспериментов. Однако планирование таких экспериментов и улучшение системы на основе их результатов по-прежнему остаются ручными процессами. Эти процессы трудоемки и требуют многопрофильной экспертизы. Для решения этих задач и обеспечения возможности создания устойчивых систем с низкими затратами в данной статье предлагается система ChaosEater, которая автоматизирует полный цикл ИХ с помощью больших языковых моделей (БЯМ). Система предопределяет агентный рабочий процесс в соответствии с систематическим циклом ИХ и распределяет разделенные на подзадачи процессы внутри workflow между БЯМ. ChaosEater ориентирована на ИХ для программных систем, построенных на Kubernetes. Следовательно, БЯМ в ChaosEater выполняют циклы ИХ через задачи программной инженерии, включая определение требований, генерацию кода, тестирование и отладку. Мы оцениваем ChaosEater на примере кейсов с системами на Kubernetes малого и крупного масштаба. Результаты показывают, что система стабильно завершает обоснованные циклы ИХ со значительно низкими временными и финансовыми затратами. Её циклы также качественно проверяются инженерами-людьми и БЯМ.
English
Chaos Engineering (CE) is an engineering technique aimed at improving the resilience of distributed systems. It involves intentionally injecting faults into a system to test its resilience, uncover weaknesses, and address them before they cause failures in production. Recent CE tools automate the execution of predefined CE experiments. However, planning such experiments and improving the system based on the experimental results still remain manual. These processes are labor-intensive and require multi-domain expertise. To address these challenges and enable anyone to build resilient systems at low cost, this paper proposes ChaosEater, a system that automates the entire CE cycle with Large Language Models (LLMs). It predefines an agentic workflow according to a systematic CE cycle and assigns subdivided processes within the workflow to LLMs. ChaosEater targets CE for software systems built on Kubernetes. Therefore, the LLMs in ChaosEater complete CE cycles through software engineering tasks, including requirement definition, code generation, testing, and debugging. We evaluate ChaosEater through case studies on small- and large-scale Kubernetes systems. The results demonstrate that it consistently completes reasonable CE cycles with significantly low time and monetary costs. Its cycles are also qualitatively validated by human engineers and LLMs.
PDF33December 1, 2025