TRAIL: 추적 추론 및 에이전트 기반 이슈 지역화
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
저자: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
초록
다양한 도메인에서 에이전트 기반 워크플로우의 활용이 증가함에 따라, 이러한 시스템이 생성하는 복잡한 트레이스를 확장 가능하고 체계적으로 평가할 필요성이 대두되고 있습니다. 현재의 평가 방법은 수동적이고 도메인 특화된 인간 분석에 의존하여 긴 워크플로우 트레이스를 분석하는 방식으로, 이는 에이전트 출력의 복잡성과 양이 증가함에 따라 확장성이 부족합니다. 이러한 환경에서의 오류 분석은 외부 도구 출력과 언어 모델 추론 간의 상호작용으로 인해 더욱 복잡해져, 전통적인 소프트웨어 디버깅보다 더 어려운 과제가 됩니다. 본 연구에서는 (1) 에이전트 워크플로우 트레이스를 위한 강력하고 동적인 평가 방법의 필요성을 명확히 하고, (2) 에이전트 시스템에서 발생하는 오류 유형에 대한 공식적인 분류 체계를 소개하며, (3) 이 분류 체계를 기반으로 구축된 148개의 대규모 인간 주석 트레이스(TRAIL)를 제시합니다. 생태학적 타당성을 보장하기 위해, 단일 및 다중 에이전트 시스템에서의 트레이스를 선별하고, 소프트웨어 엔지니어링 및 개방형 세계 정보 검색과 같은 실제 응용 사례에 초점을 맞췄습니다. 평가 결과, 현대의 장문맥 LLM은 트레이스 디버깅에서 낮은 성능을 보였으며, 가장 우수한 Gemini-2.5-pro 모델도 TRAIL에서 단 11%의 점수를 기록했습니다. 본 데이터셋과 코드는 공개되어, 에이전트 워크플로우의 확장 가능한 평가를 위한 향후 연구를 지원하고 가속화할 수 있도록 합니다.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.Summary
AI-Generated Summary