Navigazione Strategica o Ricerca Stocastica? Come Agenti e Umani Ragionano su Collezioni Documentali

Abstract

Gli agenti multimodali rappresentano una prospettiva promettente per l'automazione di flussi di lavoro complessi e intensivi di documenti. Tuttavia, una domanda cruciale rimane: questi agenti dimostrano un ragionamento strategico genuino, o si limitano a una ricerca stocastica per tentativi ed errori? Per affrontare questa questione, introduciamo MADQA, un benchmark di 2.250 questioni create da esseri umani, basate su 800 documenti PDF eterogenei. Guidati dalla Teoria Classica dei Test, lo progettiamo per massimizzare il potere discriminante attraverso diversi livelli di abilità agentive. Per valutare il comportamento agentivo, introduciamo un protocollo di valutazione innovativo che misura il compromesso accuratezza-sforzo. Utilizzando questo framework, dimostriamo che, sebbene i migliori agenti possano eguagliare i ricercatori umani in accuratezza grezza, essi riescono su questioni largamente diverse e fanno affidamento su una ricerca a forza bruta per compensare una pianificazione strategica debole. Non riescono a colmare il divario di quasi il 20% rispetto alla performance oracolare, persistendo in loop improduttivi. Rilasciamo il dataset e il sistema di valutazione per aiutare a facilitare la transizione dal recupero a forza bruta a un ragionamento calibrato ed efficiente.

English

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.

Navigazione Strategica o Ricerca Stocastica? Come Agenti e Umani Ragionano su Collezioni Documentali

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Abstract

Support