ChatPaper.aiChatPaper

ResearchRubrics: Бенчмарк промптов и рубрик для оценки агентов углубленного исследования

ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

November 10, 2025
Авторы: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI

Аннотация

Глубокое исследование (ГИ) — это развивающееся приложение-агент, использующее большие языковые модели (БЯМ) для решения открытых запросов. Оно требует интеграции нескольких способностей, включая многошаговые рассуждения, кросс-документальный синтез и генерацию развернутых ответов, подкрепленных доказательствами. Оценка ГИ остается сложной задачей, поскольку ответы получаются длинными и разнообразными, допускают множество допустимых решений и часто зависят от динамических источников информации. Мы представляем ResearchRubrics — стандартизированный бенчмарк для ГИ, созданный с затратами более 2800+ человеко-часов, который сопоставляет реалистичные, разнородные по тематикам промпты с 2500+ экспертными, детализированными рубриками для оценки фактической обоснованности, логической стройности и ясности. Мы также предлагаем новую систему классификации сложности для категоризации задач ГИ по трем осям: концептуальная широта, логическая вложенность и исследовательская глубина. Кроме того, мы разрабатываем протоколы оценки с участием человека и на основе моделей, которые измеряют соответствие ответов агентов ГИ установленным рубрикам. Мы оцениваем несколько современных систем ГИ и обнаруживаем, что даже ведущие агенты, такие как Gemini's DR и OpenAI's DR, демонстрируют среднее соответствие нашим рубрикам ниже 68%, в основном из-за упущения неявного контекста и недостаточного анализа извлеченной информации. Наши результаты подчеркивают необходимость надежной и масштабируемой оценки возможностей глубокого исследования, для содействия чему мы публикуем ResearchRubrics (включая все промпты, рубрики и код для оценки), чтобы способствовать прогрессу в создании обоснованных исследовательских ассистентов.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.
PDF94December 1, 2025