ChatPaper.aiChatPaper

DeepResearchEval: Автоматизированная система для построения сложных исследовательских задач и оценки агентных систем

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

January 14, 2026
Авторы: Yibo Wang, Lei Wang, Yue Deng, Keming Wu, Yao Xiao, Huanjin Yao, Liwei Kang, Hai Ye, Yongcheng Jing, Lidong Bing
cs.AI

Аннотация

Системы углубленного исследования широко применяются для многоэтапного веб-поиска, анализа и синтеза информации из различных источников, однако их оценка остается сложной задачей. Существующие бенчмарки часто требуют трудоемкой разметки для создания заданий, опираются на статические критерии оценки или не позволяют надежно проверять факты при отсутствии цитирований. Для преодоления этих ограничений мы представляем DeepResearchEval — автоматизированную платформу для создания задач углубленного исследования и агентной оценки. Для формирования заданий мы предлагаем персонализированный конвейер, генерирующий реалистичные сложные исследовательские задачи на основе разнообразных пользовательских профилей, с применением двухэтапного фильтра (Квалификация Задачи и Необходимость Поиска) для отбора только тех заданий, которые требуют интеграции доказательств из множества источников и внешнего поиска. Для оценки мы разработали агентный конвейер с двумя компонентами: Адаптивная Поточечная Оценка Качества, которая динамически определяет специфичные для задачи критерии, параметры и веса оценки на основе каждого сгенерированного задания, и Активная Проверка Фактов, которая автономно извлекает и верифицирует утверждения из отчетов через веб-поиск, даже при отсутствии цитирований.
English
Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.
PDF901January 16, 2026