ResearchRubrics: Um Conjunto de Referências de Prompts e Rubricas para Avaliar Agentes de Pesquisa Profunda

Resumo

A Pesquisa Aprofundada (PA) é uma aplicação de agente emergente que aproveita modelos de linguagem de grande escala (LLMs) para abordar consultas abertas. Ela requer a integração de várias capacidades, incluindo raciocínio multi-etapas, síntese entre documentos e a geração de respostas longas e fundamentadas em evidências. A avaliação da PA continua a ser um desafio porque as respostas são longas e diversificadas, admitem muitas soluções válidas e frequentemente dependem de fontes de informação dinâmicas. Apresentamos as ResearchRubrics, uma referência padronizada para PA, construída com mais de 2.800 horas de trabalho humano, que emparelha instruções realistas e diversificadas por domínio com mais de 2.500 rubricas detalhadas escritas por especialistas para avaliar fundamentação factual, solidez do raciocínio e clareza. Também propomos um novo quadro de complexidade para categorizar tarefas de PA ao longo de três eixos: amplitude conceptual, aninhamento lógico e exploração. Além disso, desenvolvemos protocolos de avaliação baseados em humanos e em modelos que medem a adesão às rubricas para agentes de PA. Avaliamos vários sistemas de PA de última geração e descobrimos que mesmo agentes líderes como o PA da Gemini e o PA da OpenAI atingem menos de 68% de conformidade média com as nossas rubricas, principalmente devido à falta de contexto implícito e ao raciocínio inadequado sobre a informação recuperada. Os nossos resultados destacam a necessidade de uma avaliação robusta e escalável das capacidades de pesquisa aprofundada, para o que disponibilizamos as ResearchRubrics (incluindo todas as instruções, rubricas e código de avaliação) para facilitar o progresso em direção a assistentes de pesquisa bem fundamentados.

English

Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.

ResearchRubrics: Um Conjunto de Referências de Prompts e Rubricas para Avaliar Agentes de Pesquisa Profunda

ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

Resumo

Support