ChatPaper.aiChatPaper

Понимание DeepResearch через отчеты

Understanding DeepResearch via Reports

October 9, 2025
Авторы: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI

Аннотация

Агенты DeepResearch представляют собой трансформационную парадигму ИИ, выполняющую экспертные исследования с помощью сложного рассуждения и интеграции множества инструментов. Однако оценка таких систем остается крайне сложной задачей из-за открытых исследовательских сценариев и существующих тестов, которые сосредоточены на изолированных возможностях, а не на целостной производительности. В отличие от традиционных задач для крупных языковых моделей (LLM), системы DeepResearch должны синтезировать разнообразные источники, генерировать инсайты и представлять связные выводы, что затрудняет простую проверку. Для устранения этого пробела мы представляем DeepResearch-ReportEval — всеобъемлющую структуру, предназначенную для оценки систем DeepResearch через их наиболее репрезентативные результаты: исследовательские отчеты. Наш подход систематически измеряет три аспекта: качество, избыточность и достоверность, используя инновационную методологию LLM-as-a-Judge, которая демонстрирует высокую согласованность с экспертами. Мы предоставляем стандартизированный тест из 100 тщательно отобранных запросов, охватывающих 12 реальных категорий, что позволяет систематически сравнивать возможности. Наша оценка четырех ведущих коммерческих систем выявляет различные философии проектирования и компромиссы в производительности, устанавливая фундаментальные инсайты по мере того, как DeepResearch эволюционирует от информационных помощников к интеллектуальным исследовательским партнерам. Исходный код и данные доступны по адресу: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting expert-level research through sophisticated reasoning and multi-tool integration. However, evaluating these systems remains critically challenging due to open-ended research scenarios and existing benchmarks that focus on isolated capabilities rather than holistic performance. Unlike traditional LLM tasks, DeepResearch systems must synthesize diverse sources, generate insights, and present coherent findings, which are capabilities that resist simple verification. To address this gap, we introduce DeepResearch-ReportEval, a comprehensive framework designed to assess DeepResearch systems through their most representative outputs: research reports. Our approach systematically measures three dimensions: quality, redundancy, and factuality, using an innovative LLM-as-a-Judge methodology achieving strong expert concordance. We contribute a standardized benchmark of 100 curated queries spanning 12 real-world categories, enabling systematic capability comparison. Our evaluation of four leading commercial systems reveals distinct design philosophies and performance trade-offs, establishing foundational insights as DeepResearch evolves from information assistants toward intelligent research partners. Source code and data are available at: https://github.com/HKUDS/DeepResearch-Eval.
PDF62October 13, 2025