DR^{3}-Eval : Vers une évaluation de la recherche approfondie réaliste et reproductible

Résumé

Les agents de recherche approfondie (DRA) visent à résoudre des tâches de recherche complexes et à long terme impliquant la planification, la recherche d'informations, la compréhension multimodale et la génération de rapports. Cependant, leur évaluation reste difficile en raison des environnements web dynamiques et des définitions de tâches ambiguës. Nous proposons DR^{3}-Eval, un benchmark réaliste et reproductible pour évaluer les agents de recherche approfondie sur la génération de rapports multimodaux et multi-fichiers. DR^{3}-Eval est construit à partir de matériaux authentiques fournis par les utilisateurs et associé à un corpus statique de recherche par tâche qui simule la complexité du web ouvert tout en restant entièrement vérifiable, contenant des documents de support, des distracteurs et du bruit. De plus, nous introduisons un cadre d'évaluation multidimensionnel mesurant le rappel d'information, l'exactitude factuelle, la couverture des citations, le suivi des instructions et la qualité de la profondeur, et validons son alignement avec les jugements humains. Les expériences avec notre système multi-agents DR^{3}-Agent, basé sur plusieurs modèles de langage de pointe, démontrent que DR^{3}-Eval est très exigeant et révèle des modes d'échec critiques dans la robustesse de la recherche d'informations et le contrôle des hallucinations. Notre code et nos données sont publiquement disponibles.

English

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.

DR^{3}-Eval : Vers une évaluation de la recherche approfondie réaliste et reproductible

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Résumé

Support