CORRECT: 다중 에이전트 시스템에서 지식 전이를 통한 응축 오류 인식
CORRECT: COndensed eRror RECognition via knowledge Transfer in multi-agent systems
September 28, 2025
저자: Yifan Yu, Moyan Li, Shaoyuan Xu, Jinmiao Fu, Xinhai Hou, Fan Lai, Bryan Wang
cs.AI
초록
다중 에이전트 시스템(MAS)은 복잡한 현실 세계의 과제를 해결하는 데 점점 더 능숙해지고 있지만, 에이전트 간의 협력, 도구 사용, 그리고 장기적인 추론에 대한 의존도가 높아 오류 인식이 특히 어려운 문제로 대두되고 있습니다. 사소한 오류가 에이전트들 사이에서 전파되면서 과제 실패로 이어질 수 있으며, 이는 길고 복잡한 실행 궤적을 생성하여 인간 개발자와 자동화 시스템 모두에게 디버깅과 분석을 위한 상당한 비용을 초래합니다. 우리의 핵심 통찰은, 실패 궤적(예: 로그)의 표면적인 차이에도 불구하고 MAS 오류가 종종 유사한 구조적 패턴으로 반복된다는 것입니다. 본 논문은 CORRECT를 소개합니다. 이는 증류된 오류 스키마의 온라인 캐시를 활용하여 새로운 요청 간에 실패 구조에 대한 지식을 인식하고 전달하는 첫 번째 경량화된, 훈련이 필요 없는 프레임워크입니다. 이 캐시 기반 재사용은 LLM이 추론 시간에 표적 오류 위치를 수행할 수 있게 하여, 비용이 많이 드는 재훈련 없이도 동적 MAS 배포에 적응할 수 있도록 합니다. 이 분야에서 엄격한 연구를 지원하기 위해, 우리는 또한 CORRECT-Error를 소개합니다. 이는 현실 세계의 분포를 기반으로 한 새로운 오류 주입 파이프라인을 통해 수집된 2,000개 이상의 주석이 달린 궤적으로 구성된 대규모 데이터셋이며, 자연스러운 실패 패턴과의 일치를 보장하기 위해 인간 평가를 통해 추가 검증되었습니다. 7가지 다양한 MAS 애플리케이션에서의 실험 결과, CORRECT는 기존의 최신 기술 대비 단계별 오류 위치 인식에서 최대 19.8%의 향상을 보였으며, 거의 제로에 가까운 오버헤드로 자동화된 오류 인식과 인간 수준의 오류 인식 간의 격차를 크게 좁혔습니다.
English
Multi-agent systems (MAS) are increasingly capable of tackling complex
real-world tasks, yet their reliance on inter-agent coordination, tool use, and
long-horizon reasoning makes error recognition particularly challenging. Minor
errors can propagate across agents, escalating into task failures while
producing long, intertwined execution trajectories that impose significant
costs for both human developers and automated systems to debug and analyze. Our
key insight is that, despite surface differences in failure trajectories (e.g.,
logs), MAS errors often recur with similar structural patterns. This paper
presents CORRECT, the first lightweight, training-free framework that leverages
an online cache of distilled error schemata to recognize and transfer knowledge
of failure structures across new requests. This cache-based reuse allows LLMs
to perform targeted error localization at inference time, avoiding the need for
expensive retraining while adapting to dynamic MAS deployments in subseconds.
To support rigorous study in this domain, we also introduce CORRECT-Error, a
large-scale dataset of over 2,000 annotated trajectories collected through a
novel error-injection pipeline guided by real-world distributions, and further
validated through human evaluation to ensure alignment with natural failure
patterns. Experiments across seven diverse MAS applications show that CORRECT
improves step-level error localization up to 19.8% over existing advances while
at near-zero overhead, substantially narrowing the gap between automated and
human-level error recognition.