Grilles d'évaluation de la recherche : un référentiel de consignes et de critères pour l'évaluation des agents de recherche approfondie
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
papers.authors: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
papers.abstract
La Recherche Approfondie (DR) est une application agent émergente qui exploite les grands modèles de langage (LLM) pour traiter des requêtes ouvertes. Elle nécessite l'intégration de plusieurs capacités, notamment le raisonnement multi-étape, la synthèse interdocumentaire et la génération de réponses longues étayées par des preuves. L'évaluation de la DR reste difficile car les réponses sont longues et diverses, admettent de nombreuses solutions valides et dépendent souvent de sources d'information dynamiques. Nous présentons ResearchRubrics, un benchmark standardisé pour la DR, construit avec plus de 2 800 heures de travail humain, qui associe des instructions réalistes et variées sur le plan domainial à plus de 2 500 grilles d'évaluation détaillées rédigées par des experts pour évaluer le fondement factuel, la solidité du raisonnement et la clarté. Nous proposons également un nouveau cadre de complexité pour catégoriser les tâches de DR selon trois axes : l'ampleur conceptuelle, l'imbrication logique et l'exploration. De plus, nous développons des protocoles d'évaluation humaine et basée sur des modèles qui mesurent l'adhésion aux grilles d'évaluation pour les agents de DR. Nous évaluons plusieurs systèmes de DR à la pointe et constatons que même les agents leaders comme Gemini DR et OpenAI DR atteignent moins de 68 % de conformité moyenne avec nos grilles, principalement en raison d'un contexte implicite manqué et d'un raisonnement inadéquat sur les informations récupérées. Nos résultats soulignent la nécessité d'une évaluation robuste et évolutive des capacités de recherche approfondie. À cette fin, nous publions ResearchRubrics (incluant toutes les instructions, grilles d'évaluation et code d'évaluation) pour faciliter les progrès vers des assistants de recherche bien justifiés.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.