Onderzoeksrubrics: Een benchmark van prompts en rubrics voor het evalueren van diepgaande onderzoeksagenten
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
Auteurs: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
Samenvatting
Deep Research (DR) is een opkomende agenttoepassing die gebruikmaakt van grote taalmmodellen (LLM's) om open vragen te beantwoorden. Het vereist de integratie van verschillende capaciteiten, waaronder multi-stap redeneren, synthese van informatie uit meerdere documenten en het genereren van uitgebreide, op bewijs gestoelde antwoorden. Het evalueren van DR blijft een uitdaging omdat de antwoorden lang en divers zijn, vele geldige oplossingen toelaten en vaak afhankelijk zijn van dynamische informatiebronnen. Wij introduceren ResearchRubrics, een gestandaardiseerde benchmark voor DR, opgebouwd met meer dan 2.800 uur menselijke arbeid. Deze benchmark koppelt realistische, domein-diverse prompts aan meer dan 2.500 expertgeschreven, gedetailleerde rubrics om de feitelijke onderbouwing, de degelijkheid van de redenering en de duidelijkheid te beoordelen. Wij stellen ook een nieuw complexiteitsraamwerk voor voor het categoriseren van DR-taken langs drie assen: conceptuele breedte, logische nesteling en verkenning. Daarnaast ontwikkelen wij op mens en model gebaseerde evaluatieprotocollen die de naleving van de rubrics door DR-agenten meten. Wij evalueren verschillende state-of-the-art DR-systemen en constateren dat zelfs toonaangevende agents zoals Gemini's DR en OpenAI's DR gemiddeld minder dan 68% naleving van onze rubrics bereiken, voornamelijk door het missen van impliciete context en ontoereikende redenering over opgehaalde informatie. Onze resultaten benadrukken de behoefte aan robuuste, schaalbare beoordeling van deep research-capaciteiten. Om hieraan bij te dragen, publiceren wij ResearchRubrics (inclusief alle prompts, rubrics en evaluatiecode) om de vooruitgang naar goed onderbouwde onderzoeksassistenten te vergemakkelijken.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.