ChatPaper.aiChatPaper

TRAIL: トレース推論とエージェント的課題特定

TRAIL: Trace Reasoning and Agentic Issue Localization

May 13, 2025
著者: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI

要旨

多様な領域におけるエージェント型ワークフローの普及が進む中、これらのシステムが生成する複雑なトレースをスケーラブルかつ体系的に評価する必要性が高まっている。現在の評価手法は、長大なワークフロートレースに対する手動のドメイン固有の人間分析に依存しており、エージェントの出力の複雑さと量が増大するにつれてスケールしない。これらの設定におけるエラー分析は、外部ツールの出力と言語モデルの推論の相互作用によってさらに複雑化し、従来のソフトウェアデバッグよりも困難を極める。本研究では、(1) エージェント型ワークフロートレースに対する堅牢で動的な評価手法の必要性を明示し、(2) エージェントシステムで遭遇するエラータイプの形式的な分類を導入し、(3) この分類に基づいて構築された148の大規模な人間注釈付きトレース(TRAIL)を提示する。生態学的妥当性を確保するため、単一エージェントシステムとマルチエージェントシステムの両方からトレースを選定し、ソフトウェアエンジニアリングやオープンワールド情報検索などの実世界のアプリケーションに焦点を当てた。評価の結果、現代の長文脈LLMはトレースデバッグにおいて低い性能を示し、最高のGemini-2.5-proモデルでもTRAILでわずか11%のスコアしか得られなかった。我々のデータセットとコードは公開され、エージェント型ワークフローのスケーラブルな評価に関する将来の研究を支援し加速することを目的としている。
English
The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces - an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

Summary

AI-Generated Summary

PDF42May 14, 2025