연구 평가 기준: 심층 연구 에이전트 평가를 위한 프롬프트 및 루브릭 벤치마크
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
저자: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
초록
딥 리서치(DR)는 대규모 언어 모델(LLM)을 활용하여 개방형 질의를 해결하는 신흥 에이전트 애플리케이션입니다. DR은 다단계 추론, 문서 간 통합, 증거 기반의 장문 답변 생성 등 여러 능력의 통합을 필요로 합니다. DR의 평가는 응답이 길고 다양하며, 많은 유효한 해결책을 허용하며, 종종 동적인 정보원에 의존하기 때문에 여전히 어려운 과제로 남아 있습니다. 본 논문은 사실적 근거, 추론의 건전성, 명확성을 평가하기 위해 현실적이고 다양한 도메인의 프롬프트와 2,500개 이상의 전문가가 작성한 세분화된 루브릭을 결합한, 2,800시간 이상의 인간 노동으로 구축된 DR용 표준화된 벤치마크인 ResearchRubrics를 소개합니다. 또한 개념적 폭, 논리적 중첩, 탐색이라는 세 가지 축을 따라 DR 작업을 분류하기 위한 새로운 복잡성 프레임워크를 제안합니다. 더불어 DR 에이전트의 루브릭 준수도를 측정하는 인간 및 모델 기반 평가 프로토콜을 개발합니다. 여러 최첨단 DR 시스템을 평가한 결과, Gemini의 DR 및 OpenAI의 DR과 같은 주요 에이전트들도 평균 68% 미만의 루브릭 준수율을 보였으며, 이는 주로 암묵적 맥락을 놓치고 검색된 정보에 대한 추론이 부적절했기 때문입니다. 우리의 결과는 딥 리서치 능력에 대한 강력하고 확장 가능한 평가의 필요성을 강조하며, 이를 위해 잘 근거된 연구 보조원으로의 발전을 촉진하기 위해 ResearchRubrics(모든 프롬프트, 루브릭, 평가 코드 포함)를 공개합니다.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.