Стратегическая навигация или стохастический поиск? Как агенты и люди анализируют коллекции документов

Аннотация

Мультимодальные агенты открывают перспективный путь к автоматизации сложных документоемких процессов. Однако ключевой вопрос остается открытым: демонстрируют ли эти агенты подлинное стратегическое мышление или же они ограничиваются стохастическим поиском методом проб и ошибок? Для решения этой задачи мы представляем MADQA — набор из 2250 вопросов, созданных человеком на основе 800 разнородных PDF-документов. Руководствуясь классической теорией тестов, мы разработали его для максимизации дискриминативной способности применительно к различным уровням агентских способностей. Для оценки агентского поведения мы вводим новый протокол оценки, измеряющий компромисс между точностью и усилиями. Используя эту методологию, мы показываем, что хотя лучшие агенты могут сравниться с человеком по чистой точности, они успешно отвечают на совершенно иные вопросы и полагаются на метод грубого перебора, чтобы компенсировать слабое стратегическое планирование. Им не удается сократить разрыв почти в 20% до эталонной производительности, и они застревают в непродуктивных циклах. Мы публикуем набор данных и инструменты оценки, чтобы способствовать переходу от грубого извлечения информации к калиброванному и эффективному рассуждению.

English

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.

Стратегическая навигация или стохастический поиск? Как агенты и люди анализируют коллекции документов

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Аннотация

Support