ResearchRubrics: Un Benchmark di Prompt e Griglie di Valutazione per la Valutazione di Agenti di Ricerca Approfondita
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
Autori: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
Abstract
Deep Research (DR) è un'applicazione agente emergente che sfrutta i grandi modelli linguistici (LLM) per affrontare query a risposta aperta. Richiede l'integrazione di diverse capacità, tra cui il ragionamento multi-step, la sintesi cross-documentale e la generazione di risposte lunghe e supportate da evidenze. La valutazione del DR rimane complessa poiché le risposte sono lunghe e diversificate, ammettono molte soluzioni valide e spesso dipendono da fonti informative dinamiche. Introduciamo ResearchRubrics, un benchmark standardizzato per il DR, costruito con oltre 2.800+ ore di lavoro umano, che abbina prompt realistici e diversificati per dominio a 2.500+ rubriche dettagliate scritte da esperti per valutare il fondamento fattuale, la solidità del ragionamento e la chiarezza. Proponiamo inoltre un nuovo framework di complessità per categorizzare i compiti di DR lungo tre assi: ampiezza concettuale, annidamento logico ed esplorazione. In aggiunta, sviluppiamo protocolli di valutazione umani e basati su modelli che misurano l'aderenza alle rubriche per gli agenti di DR. Valutiamo diversi sistemi di DR all'avanguardia e riscontriamo che anche agenti leader come il DR di Gemini e il DR di OpenAI raggiungono una conformità media inferiore al 68% con le nostre rubriche, principalmente a causa della mancata considerazione del contesto implicito e di un ragionamento inadeguato sulle informazioni recuperate. I nostri risultati evidenziano la necessità di una valutazione robusta e scalabile delle capacità di deep research, e a tal fine rilasciamo ResearchRubrics (inclusi tutti i prompt, le rubriche e il codice di valutazione) per facilitare il progresso verso assistenti alla ricerca ben giustificati.
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.