Navigation stratégique ou recherche stochastique ? Comment les agents et les humains raisonnent sur des collections de documents

Résumé

Les agents multimodaux offrent une voie prometteuse pour automatiser les flux de travail complexes et gourmands en documents. Pourtant, une question cruciale demeure : ces agents font-ils preuve d'un raisonnement stratégique authentique ou se contentent-ils d'une recherche stochastique par essais et erreurs ? Pour y répondre, nous présentons MADQA, un benchmark de 2 250 questions rédigées par des humains et basées sur 800 documents PDF hétérogènes. Guidé par la théorie classique des tests, nous l'avons conçu pour maximiser le pouvoir discriminant entre différents niveaux de capacités agentielles. Pour évaluer le comportement agentiel, nous introduisons un nouveau protocole d'évaluation mesurant le compromis précision-effort. En utilisant ce cadre, nous montrons que si les meilleurs agents peuvent égaler les chercheurs humains en précision brute, ils réussissent sur des questions largement différentes et s'appuient sur une recherche par force brute pour compenser une planification stratégique faible. Ils ne parviennent pas à combler l'écart de près de 20 % avec la performance oracle, persistant dans des boucles improductives. Nous publions le jeu de données et la plateforme d'évaluation pour faciliter la transition d'une récupération par force brute vers un raisonnement calibré et efficace.

English

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.

Navigation stratégique ou recherche stochastique ? Comment les agents et les humains raisonnent sur des collections de documents

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Résumé

Support