OfficeQA Pro: Un punto de referencia empresarial para el razonamiento fundamentado de extremo a extremo

Resumen

Presentamos OfficeQA Pro, un punto de referencia para evaluar agentes de IA en tareas de razonamiento fundamentado y multi-documento sobre un corpus de documentos grande y heterogéneo. El corpus consiste en los Boletines del Tesoro de EE. UU. que abarcan casi 100 años, comprendiendo 89,000 páginas y más de 26 millones de valores numéricos. OfficeQA Pro consta de 133 preguntas que requieren un análisis, recuperación y razonamiento analítico preciso de documentos, tanto en texto no estructurado como en datos tabulares. Los modelos de lenguaje de última generación, incluidos Claude Opus 4.6, GPT-5.4 y Gemini 3.1 Pro Preview, logran una precisión inferior al 5% en OfficeQA Pro cuando dependen únicamente de conocimiento paramétrico, y menos del 12% con acceso adicional a la web. Cuando se les proporciona directamente el corpus de documentos, los agentes más avanzados aún tienen dificultades en más de la mitad de las preguntas, obteniendo un 34.1% de precisión en promedio. Encontramos que proporcionar a los agentes una representación estructurada de los documentos producida por `ai_parse_document` de Databricks produce una ganancia de rendimiento relativa promedio del 16.1% entre los agentes. Realizamos ablaciones adicionales para estudiar los efectos de la selección del modelo, la representación de tablas, la estrategia de recuperación y el escalado en tiempo de prueba sobre el rendimiento. A pesar de estas mejoras, aún queda un margen significativo de mejora antes de que los agentes puedan considerarse confiables para un razonamiento fundamentado de grado empresarial.

English

We introduce OfficeQA Pro, a benchmark for evaluating AI agents on grounded, multi-document reasoning over a large and heterogeneous document corpus. The corpus consists of U.S. Treasury Bulletins spanning nearly 100 years, comprising 89,000 pages and over 26 million numerical values. OfficeQA Pro consists of 133 questions that require precise document parsing, retrieval, and analytical reasoning across both unstructured text and tabular data. Frontier LLMs including Claude Opus 4.6, GPT-5.4, and Gemini 3.1 Pro Preview achieve less than 5% accuracy on OfficeQA Pro when relying on parametric knowledge, and less than 12% with additional access to the web. When provided directly with the document corpus, frontier agents still struggle on over half of questions, scoring 34.1% on average. We find that providing agents with a structured document representation produced by Databricks' ai_parse_document yields a 16.1% average relative performance gain across agents. We conduct additional ablations to study the effects of model selection, table representation, retrieval strategy, and test-time scaling on performance. Despite these improvements, significant headroom remains before agents can be considered reliable at enterprise-grade grounded reasoning.

OfficeQA Pro: Un punto de referencia empresarial para el razonamiento fundamentado de extremo a extremo

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Resumen

Support