ResearchRubrics: Ein Benchmark von Prompts und Bewertungsrastern zur Evaluierung von Deep Research Agents
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
papers.authors: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
papers.abstract
Deep Research (DR) ist eine neuartige Agentenanwendung, die große Sprachmodelle (Large Language Models, LLMs) nutzt, um offene Fragestellungen zu bearbeiten. Sie erfordert die Integration verschiedener Fähigkeiten, darunter mehrstufiges Schlussfolgern, dokumenübergreifende Synthese und die Erstellung belegter, langformiger Antworten. Die Bewertung von DR bleibt eine Herausforderung, da die Antworten lang und vielfältig sind, viele gültige Lösungen zulassen und oft auf dynamischen Informationsquellen basieren. Wir stellen ResearchRubrics vor, einen standardisierten Benchmark für DR, der mit über 2.800+ Stunden menschlicher Arbeit erstellt wurde und realistische, domainenübergreifende Prompts mit 2.500+ feingranularen, von Experten verfassten Bewertungsrastern (Rubrics) kombiniert, um faktische Fundierung, Schlüssigkeit der Argumentation und Klarheit zu bewerten. Zudem schlagen wir einen neuen Komplexitätsrahmen vor, um DR-Aufgaben entlang dreier Achsen zu kategorisieren: konzeptionelle Breite, logische Verschachtelung und Exploration. Darüber hinaus entwickeln wir menschliche und modellbasierte Evaluierungsprotokolle, die die Einhaltung der Bewertungsraster für DR-Agenten messen. Wir evaluieren mehrere state-of-the-art DR-Systeme und stellen fest, dass selbst führende Agenten wie Gemini's DR und OpenAI's DR durchschnittlich weniger als 68 % Übereinstimmung mit unseren Bewertungsrastern erreichen, hauptsächlich aufgrund von übersehenem implizitem Kontext und unzureichendem Schlussfolgern auf Basis abgerufener Informationen. Unsere Ergebnisse unterstreichen die Notwendigkeit einer robusten, skalierbaren Bewertung von Deep-Research-Fähigkeiten. Zu diesem Zweck veröffentlichen wir ResearchRubrics (einschließlich aller Prompts, Bewertungsraster und Evaluierungscodes), um Fortschritte in Richtung gut begründeter Forschungsassistenten zu fördern.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.