DR^{3}-Eval: Op weg naar realistische en reproduceerbare evaluatie van diepgaand onderzoek

Samenvatting

Deep Research Agents (DRA's) hebben als doel complexe, langetermijnonderzoektaken op te lossen die planning, retrieval, multimodaal begrip en rapportgeneratie omvatten, maar hun evaluatie blijft uitdagend vanwege dynamische webomgevingen en ambigue taakdefinities. Wij stellen DR^{3}-Eval voor, een realistische en reproduceerbare benchmark voor het evalueren van deep research agents op multimodale, multi-file rapportgeneratie. DR^{3}-Eval is geconstrueerd vanuit authentieke, door gebruikers verstrekte materialen en gekoppeld aan een per-taak statisch onderzoekssandbox-corpus dat de complexiteit van het open web simuleert terwijl het volledig verifieerbaar blijft, en dat ondersteunende documenten, afleidende elementen en ruis bevat. Bovendien introduceren we een multidimensionaal evaluatieraamwerk dat Information Recall, Factuele Nauwkeurigheid, Citation Coverage, Instructievolging en Dieptekwaliteit meet, en valideren we de afstemming daarvan met menselijke beoordelingen. Experimenten met ons ontwikkelde multi-agent systeem DR^{3}-Agent, gebaseerd op meerdere state-of-the-art taalmodel(len), tonen aan dat DR^{3}-Eval zeer uitdagend is en kritieke faalmodi onthult op het gebied van retrieval-robuustheid en hallucinatiecontrole. Onze code en data zijn openbaar beschikbaar.

English

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.

DR^{3}-Eval: Op weg naar realistische en reproduceerbare evaluatie van diepgaand onderzoek

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Samenvatting

Support