OfficeQA Pro: un Benchmark Aziendale per il Ragionamento End-to-End Grounded
OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
March 9, 2026
Autori: Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen
cs.AI
Abstract
Introduciamo OfficeQA Pro, un benchmark per valutare gli agenti di IA sul ragionamento multimodale e fondato su documenti, applicato a un corpus documentale ampio ed eterogeneo. Il corpus è costituito dai Bollettini del Tesoro degli Stati Uniti che coprono quasi 100 anni, comprendendo 89.000 pagine e oltre 26 milioni di valori numerici. OfficeQA Pro consiste in 133 domande che richiedono un'analisi precisa dei documenti, un recupero delle informazioni e un ragionamento analitico che spazia sia su testo non strutturato che su dati tabellari. I modelli linguistici all'avanguardia, inclusi Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro Preview, ottengono un'accuratezza inferiore al 5% su OfficeQA Pro quando si basano sulla conoscenza parametrica, e meno del 12% con accesso aggiuntivo al web. Quando viene fornito loro direttamente l'accesso al corpus documentale, questi agenti all'avanguardia continuano a incontrare difficoltà su oltre la metà delle domande, raggiungendo in media un punteggio del 34,1%. Rileviamo che fornire agli agenti una rappresentazione strutturata del documento prodotta da Databricks' `ai_parse_document` produce un guadagno di performance relativo medio del 16,1% tra gli agenti. Eseguiamo ulteriori studi di ablazione per analizzare gli effetti della selezione del modello, della rappresentazione tabellare, della strategia di retrieval e dello scaling a tempo di test sulle prestazioni. Nonostante questi miglioramenti, rimane un margine di progresso significativo prima che gli agenti possano essere considerati affidabili per un ragionamento fondato di livello enterprise.
English
We introduce OfficeQA Pro, a benchmark for evaluating AI agents on grounded, multi-document reasoning over a large and heterogeneous document corpus. The corpus consists of U.S. Treasury Bulletins spanning nearly 100 years, comprising 89,000 pages and over 26 million numerical values. OfficeQA Pro consists of 133 questions that require precise document parsing, retrieval, and analytical reasoning across both unstructured text and tabular data. Frontier LLMs including Claude Opus 4.6, GPT-5.4, and Gemini 3.1 Pro Preview achieve less than 5% accuracy on OfficeQA Pro when relying on parametric knowledge, and less than 12% with additional access to the web. When provided directly with the document corpus, frontier agents still struggle on over half of questions, scoring 34.1% on average. We find that providing agents with a structured document representation produced by Databricks' ai_parse_document yields a 16.1% average relative performance gain across agents. We conduct additional ablations to study the effects of model selection, table representation, retrieval strategy, and test-time scaling on performance. Despite these improvements, significant headroom remains before agents can be considered reliable at enterprise-grade grounded reasoning.