Navegação Estratégica ou Busca Estocástica? Como Agentes e Humanos Raciocinam sobre Coleções de Documentos
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
March 12, 2026
Autores: Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta
cs.AI
Resumo
Os agentes multimodais oferecem um caminho promissor para a automação de fluxos de trabalho complexos e intensivos em documentos. No entanto, uma questão crítica permanece: estes agentes demonstram um raciocínio estratégico genuíno ou apenas uma busca estocástica por tentativa e erro? Para responder a isto, apresentamos o MADQA, um *benchmark* composto por 2.250 questões elaboradas por humanos, baseadas em 800 documentos PDF heterogéneos. Guiados pela Teoria Clássica dos Testes, concebemo-lo para maximizar o poder discriminativo em vários níveis de capacidades agentivas. Para avaliar o comportamento agentivo, introduzimos um protocolo de avaliação inovador que mede o compromisso entre precisão e esforço. Utilizando esta estrutura, demonstramos que, embora os melhores agentes possam igualar os pesquisadores humanos em precisão bruta, eles têm sucesso em questões largamente diferentes e dependem de uma busca de força bruta para compensar um planeamento estratégico fraco. Eles não conseguem fechar a lacuna de quase 20% para o desempenho de um *oráculo*, persistindo em ciclos improdutivos. Disponibilizamos o conjunto de dados e a estrutura de avaliação para ajudar a facilitar a transição da recuperação por força bruta para um raciocínio calibrado e eficiente.
English
Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.