¿Navegación estratégica o búsqueda estocástica? Cómo los agentes y los humanos razonan sobre colecciones documentales
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
March 12, 2026
Autores: Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta
cs.AI
Resumen
Los agentes multimodales ofrecen un camino prometedor para automatizar flujos de trabajo complejos e intensivos en documentos. Sin embargo, una pregunta crítica permanece: ¿demuestran estos agentes un razonamiento estratégico genuino o simplemente una búsqueda estocástica por ensayo y error? Para abordar esto, presentamos MADQA, un benchmark de 2.250 preguntas creadas por humanos basadas en 800 documentos PDF heterogéneos. Guiados por la Teoría Clásica de los Tests, lo diseñamos para maximizar el poder discriminatorio entre distintos niveles de habilidades agentivas. Para evaluar el comportamiento agentivo, introducimos un novedoso protocolo de evaluación que mide la relación precisión-esfuerzo. Utilizando este marco, demostramos que, aunque los mejores agentes pueden igualar a los buscadores humanos en precisión bruta, tienen éxito en preguntas mayoritariamente diferentes y dependen de búsquedas por fuerza bruta para compensar una planificación estratégica débil. No logran cerrar la brecha de casi un 20% con respecto al rendimiento de un oráculo, persistendo en bucles improductivos. Publicamos el conjunto de datos y el sistema de evaluación para ayudar a facilitar la transición desde la recuperación por fuerza bruta hacia un razonamiento calibrado y eficiente.
English
Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.