Strategische Navigation oder stochastische Suche? Wie Agenten und Menschen über Dokumentensammlungen schlussfolgern

Zusammenfassung

Multimodale Agenten bieten einen vielversprechenden Weg zur Automatisierung komplexer, dokumentenintensiver Arbeitsabläufe. Dennoch bleibt eine kritische Frage bestehen: Zeigen diese Agenten echtes strategisches Denkvermögen oder lediglich eine stochastische Trial-and-Error-Suche? Um dies zu untersuchen, stellen wir MADQA vor, einen Benchmark mit 2.250 von Menschen erstellten Fragen, die auf 800 heterogenen PDF-Dokumenten basieren. Angeleitet von der Klassischen Testtheorie haben wir ihn so konzipiert, dass er die diskriminative Aussagekraft über verschiedene Stufen agentenbasierter Fähigkeiten maximiert. Zur Bewertung des agentenhaften Verhaltens führen wir ein neuartiges Evaluierungsprotokoll ein, das den Trade-off zwischen Genauigkeit und Aufwand misst. Mithilfe dieses Frameworks zeigen wir, dass die besten Agenten zwar in puncto reiner Genauigkeit mit menschlichen Suchern mithalten können, sie jedoch bei weitgehend anderen Fragen erfolgreich sind und sich auf eine Brute-Force-Suche stützen, um schwache strategische Planung zu kompensieren. Es gelingt ihnen nicht, die Lücke von fast 20 % zur Oracle-Performance zu schließen, und sie verharren in unproduktiven Schleifen. Wir veröffentlichen den Datensatz und die Evaluierungsmethode, um den Übergang von der Brute-Force-Recherche zu kalibriertem, effizientem Denken zu erleichtern.

English

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.

Strategische Navigation oder stochastische Suche? Wie Agenten und Menschen über Dokumentensammlungen schlussfolgern

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Zusammenfassung

Support