OfficeQA Pro: Ein Unternehmensbenchmark für end-to-end-basiertes geerdetes Schließen

Zusammenfassung

Wir stellen OfficeQA Pro vor, einen Benchmark zur Bewertung von KI-Agenten im Bereich des geerdeten, dokumentspezifischen Denkens über einen großen und heterogenen Dokumentenkorpus. Der Korpus besteht aus US-Treasury-Bulletins, die einen Zeitraum von fast 100 Jahren umfassen und 89.000 Seiten sowie über 26 Millionen numerische Werte enthalten. OfficeQA Pro besteht aus 133 Fragen, die eine präzise Dokumentenanalyse, -abfrage und analytisches Denken sowohl über unstrukturierte Texte als auch über Tabellendaten erfordern. Führende LLMs wie Claude Opus 4.6, GPT-5.4 und Gemini 3.1 Pro Preview erreichen auf OfficeQA Pro eine Genauigkeit von weniger als 5 %, wenn sie sich auf parametrisches Wissen verlassen, und weniger als 12 % mit zusätzlichem Zugang zum Internet. Selbst wenn sie direkt mit dem Dokumentenkorpus versorgt werden, haben führende Agenten bei über der Hälfte der Fragen Schwierigkeiten und erzielen durchschnittlich 34,1 %. Wir stellen fest, dass die Bereitstellung einer strukturierten Dokumentendarstellung, die mit Databricks' ai_parse_document erzeugt wurde, bei den Agenten einen durchschnittlichen relativen Leistungszuwachs von 16,1 % bewirkt. Wir führen zusätzliche Ablationen durch, um die Auswirkungen von Modellauswahl, Tabellendarstellung, Abfragestrategie und Test-Time-Scaling auf die Leistung zu untersuchen. Trotz dieser Verbesserungen bleibt ein erheblicher Spielraum, bis Agenten als zuverlässig für unternehmensreifes, geerdetes Denken eingestuft werden können.

English

We introduce OfficeQA Pro, a benchmark for evaluating AI agents on grounded, multi-document reasoning over a large and heterogeneous document corpus. The corpus consists of U.S. Treasury Bulletins spanning nearly 100 years, comprising 89,000 pages and over 26 million numerical values. OfficeQA Pro consists of 133 questions that require precise document parsing, retrieval, and analytical reasoning across both unstructured text and tabular data. Frontier LLMs including Claude Opus 4.6, GPT-5.4, and Gemini 3.1 Pro Preview achieve less than 5% accuracy on OfficeQA Pro when relying on parametric knowledge, and less than 12% with additional access to the web. When provided directly with the document corpus, frontier agents still struggle on over half of questions, scoring 34.1% on average. We find that providing agents with a structured document representation produced by Databricks' ai_parse_document yields a 16.1% average relative performance gain across agents. We conduct additional ablations to study the effects of model selection, table representation, retrieval strategy, and test-time scaling on performance. Despite these improvements, significant headroom remains before agents can be considered reliable at enterprise-grade grounded reasoning.

OfficeQA Pro: Ein Unternehmensbenchmark für end-to-end-basiertes geerdetes Schließen

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Zusammenfassung

Support