DR³-Eval: В направлении реалистичной и воспроизводимой оценки глубинных исследований
DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation
April 16, 2026
Авторы: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu
cs.AI
Аннотация
Глубокие исследовательские агенты (DRA) направлены на решение сложных, долгосрочных исследовательских задач, включающих планирование, поиск информации, мультимодальное понимание и генерацию отчетов, однако их оценка остается сложной из-за динамичности веб-среды и неоднозначных определений задач. Мы предлагаем DR^{3}-Eval — реалистичный и воспроизводимый бенчмарк для оценки глубоких исследовательских агентов в задачах генерации мультимодальных отчетов на основе нескольких файлов. DR^{3}-Eval создан на основе аутентичных материалов, предоставленных пользователями, и дополнен статичным исследовательским песочницей для каждой задачи, которая моделирует сложность открытой веб-среды, оставаясь при этом полностью верифицируемой и содержащей релевантные документы, отвлекающие факторы и шум. Кроме того, мы представляем многомерную систему оценки, измеряющую полноту охвата информации, фактическую точность, цитирование источников, соответствие инструкциям и глубину проработки, и проверяем ее соответствие человеческим оценкам. Эксперименты с нашей разработанной мульти-агентной системой DR^{3}-Agent на основе нескольких передовых языковых моделей демонстрируют, что DR^{3}-Eval представляет значительную сложность и выявляет критические проблемы в устойчивости поиска и контроле галлюцинаций. Наш код и данные находятся в открытом доступе.
English
Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.