ResearchRubrics: Un Punto de Referencia de Indicaciones y Rúbricas para Evaluar Agentes de Investigación Profunda
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
Autores: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
Resumen
Deep Research (DR) es una aplicación agente emergente que aprovecha los grandes modelos de lenguaje (LLM) para abordar consultas abiertas. Requiere la integración de varias capacidades, que incluyen el razonamiento multi-etapa, la síntesis de múltiples documentos y la generación de respuestas extensas respaldadas por evidencia. La evaluación de DR sigue siendo un desafío porque las respuestas son extensas y diversas, admiten muchas soluciones válidas y a menudo dependen de fuentes de información dinámicas. Presentamos ResearchRubrics, un punto de referencia estandarizado para DR construido con más de 2,800+ horas de trabajo humano, que empareja instrucciones realistas y de diversos dominios con 2,500+ rúbricas detalladas escritas por expertos para evaluar la base fáctica, la solidez del razonamiento y la claridad. También proponemos un nuevo marco de complejidad para categorizar las tareas de DR a lo largo de tres ejes: amplitud conceptual, anidamiento lógico y exploración. Además, desarrollamos protocolos de evaluación basados en humanos y modelos que miden la adherencia a las rúbricas para los agentes de DR. Evaluamos varios sistemas de DR de vanguardia y encontramos que incluso agentes líderes como DR de Gemini y DR de OpenAI logran un cumplimiento promedio inferior al 68% con nuestras rúbricas, principalmente debido a la omisión de contexto implícito y a un razonamiento inadecuado sobre la información recuperada. Nuestros resultados destacan la necesidad de una evaluación robusta y escalable de las capacidades de investigación profunda, para lo cual publicamos ResearchRubrics (incluyendo todas las instrucciones, rúbricas y código de evaluación) para facilitar el progreso hacia asistentes de investigación bien fundamentados.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.