ChatPaper.aiChatPaper

OfficeQA Pro: 종단 간 근거 기반 추론을 위한 기업 벤치마크

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

March 9, 2026
저자: Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen
cs.AI

초록

OfficeQA Pro를 소개합니다. 이는 방대하고 이질적인 문서 코퍼스에 대한 근거 기반 다중 문서 추론 능력을 AI 에이전트가 평가하기 위한 벤치마크입니다. 해당 코퍼스는 약 100년에 걸친 미국 재무부 공보(Bulletin)로 구성되어 있으며, 89,000페이지가 넘고 2,600만 개 이상의 수치 데이터를 포함합니다. OfficeQA Pro는 비정형 텍스트와 표 형식 데이터 모두에 걸쳐 정밀한 문서 구문 분석, 검색 및 분석적 추론을 요구하는 133개의 질문으로 구성되어 있습니다. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro Preview 등 최첨단 대규모 언어 모델(LLM)들은 매개변수 지식에 의존할 경우 OfficeQA Pro에서 5% 미만의 정확도를 보였으며, 웹 접근 권한이 추가되어도 12% 미만에 그쳤습니다. 문서 코퍼스에 직접 접근할 수 있게 제공된 경우에도 최첨단 에이전트들은 절반 이상의 질문에서 어려움을 겪으며 평균 34.1%의 점수를 기록했습니다. Databricks의 ai_parse_document로 생성된 구조화된 문서 표현을 에이전트에 제공하면 에이전트 전반에 걸쳐 평균 16.1%의 상대적 성능 향상을 가져오는 것을 확인했습니다. 모델 선택, 테이블 표현 방식, 검색 전략, 테스트 시간 스케일링이 성능에 미치는 영향을 연구하기 위해 추가적인 Ablation 실험을 수행했습니다. 이러한 개선에도 불구하고, 에이전트가 기업 수준의 근거 기반 추론에 신뢰할 수 있을 정도로 성능을 발휘하기까지는 여전히 상당한 개선 여지가 남아 있습니다.
English
We introduce OfficeQA Pro, a benchmark for evaluating AI agents on grounded, multi-document reasoning over a large and heterogeneous document corpus. The corpus consists of U.S. Treasury Bulletins spanning nearly 100 years, comprising 89,000 pages and over 26 million numerical values. OfficeQA Pro consists of 133 questions that require precise document parsing, retrieval, and analytical reasoning across both unstructured text and tabular data. Frontier LLMs including Claude Opus 4.6, GPT-5.4, and Gemini 3.1 Pro Preview achieve less than 5% accuracy on OfficeQA Pro when relying on parametric knowledge, and less than 12% with additional access to the web. When provided directly with the document corpus, frontier agents still struggle on over half of questions, scoring 34.1% on average. We find that providing agents with a structured document representation produced by Databricks' ai_parse_document yields a 16.1% average relative performance gain across agents. We conduct additional ablations to study the effects of model selection, table representation, retrieval strategy, and test-time scaling on performance. Despite these improvements, significant headroom remains before agents can be considered reliable at enterprise-grade grounded reasoning.
PDF31March 16, 2026