TRAIL: Трассировка Рассуждений и Агентная Локализация Проблем
TRAIL: Trace Reasoning and Agentic Issue Localization
May 13, 2025
Авторы: Darshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian
cs.AI
Аннотация
Растущее внедрение агентных рабочих процессов в различных областях вызывает острую необходимость в масштабируемой и систематической оценке сложных трасс, генерируемых этими системами. Современные методы оценки зависят от ручного, предметно-ориентированного анализа длинных трасс рабочими процессами, что не масштабируется с увеличением сложности и объема агентных выводов. Анализ ошибок в таких условиях дополнительно осложняется взаимодействием выходных данных внешних инструментов и рассуждений языковых моделей, что делает его более сложным, чем традиционная отладка программного обеспечения. В данной работе мы (1) формулируем необходимость в надежных и динамичных методах оценки трасс агентных рабочих процессов, (2) вводим формальную таксономию типов ошибок, встречающихся в агентных системах, и (3) представляем набор из 148 крупных трасс, аннотированных человеком (TRAIL), созданных с использованием этой таксономии и основанных на устоявшихся бенчмарках для агентных систем. Чтобы обеспечить экологическую валидность, мы отбираем трассы как из одноагентных, так и из многоагентных систем, сосредотачиваясь на реальных приложениях, таких как разработка программного обеспечения и поиск информации в открытом мире. Наши оценки показывают, что современные языковые модели с длинным контекстом (LLM) плохо справляются с отладкой трасс, при этом лучшая модель Gemini-2.5-pro набирает всего 11% на TRAIL. Наш набор данных и код публично доступны для поддержки и ускорения будущих исследований в области масштабируемой оценки агентных рабочих процессов.
English
The increasing adoption of agentic workflows across diverse domains brings a
critical need to scalably and systematically evaluate the complex traces these
systems generate. Current evaluation methods depend on manual, domain-specific
human analysis of lengthy workflow traces - an approach that does not scale
with the growing complexity and volume of agentic outputs. Error analysis in
these settings is further complicated by the interplay of external tool outputs
and language model reasoning, making it more challenging than traditional
software debugging. In this work, we (1) articulate the need for robust and
dynamic evaluation methods for agentic workflow traces, (2) introduce a formal
taxonomy of error types encountered in agentic systems, and (3) present a set
of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and
grounded in established agentic benchmarks. To ensure ecological validity, we
curate traces from both single and multi-agent systems, focusing on real-world
applications such as software engineering and open-world information retrieval.
Our evaluations reveal that modern long context LLMs perform poorly at trace
debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our
dataset and code are made publicly available to support and accelerate future
research in scalable evaluation for agentic workflows.