Strategische navigatie of stochastische zoektocht? Hoe agenten en mensen redeneren over documentverzamelingen.

Samenvatting

Multimodale agents bieden een veelbelovend pad voor het automatiseren van complexe, document-intensieve workflows. Toch blijft een cruciale vraag onbeantwoord: vertonen deze agenten werkelijk strategisch redeneervermogen, of slechts een stochastische zoektocht via trial-and-error? Om dit te onderzoeken, introduceren we MADQA, een benchmark met 2.250 door mensen geschreven vragen, gebaseerd op 800 heterogene PDF-documenten. Geleid door de Klassieke Testtheorie, is het ontworpen om de onderscheidend vermogen te maximaliseren over verschillende niveaus van agent-vaardigheden. Om agent-gedrag te evalueren, introduceren we een nieuw evaluatieprotocol dat de nauwkeurigheid-inspanning-afweging meet. Met dit framework tonen we aan dat, hoewel de beste agenten de nauwkeurigheid van menselijke zoekers kunnen evenaren, zij slagen op grotendeels andere vragen en vertrouwen op brute-force zoekacties om zwakke strategische planning te compenseren. Zij slagen er niet in de kloof van bijna 20% naar orakelprestaties te dichten en vervallen in improductieve loops. We maken de dataset en evaluatietoolkit openbaar om de transitie van brute-force retrieval naar gekalibreerd, efficiënt redeneren te bevorderen.

English

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.

Strategische navigatie of stochastische zoektocht? Hoe agenten en mensen redeneren over documentverzamelingen.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Samenvatting

Support