Обучение специализированных рубрик на основе человеческих предпочтений для глубокого генеративного анализа исследовательских отчетов
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
February 3, 2026
Авторы: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI
Аннотация
В настоящее время обучение и оценка отчетов, сгенерированных системами DeepResearch, остаются сложной задачей из-за отсутствия верифицируемых сигналов вознаграждения. В связи с этим общепринятой практикой стала оценка на основе рубрик. Однако существующие подходы либо опираются на грубые, предопределенные рубрики, которым не хватает достаточной детализации, либо зависят от созданных вручную специфичных для запроса рубрик, что дорого и сложно масштабировать. В данной статье мы предлагаем конвейер для обучения специфичных для запроса генераторов рубрик, согласованных с человеческими предпочтениями и адаптированных для генерации отчетов DeepResearch. Сначала мы создаем набор данных запросов в стиле DeepResearch, аннотированных человеческими предпочтениями по парным отчетам, и обучаем генераторы рубрик с помощью обучения с подкреплением и гибридной функцией вознаграждения, сочетающей контроль со стороны человеческих предпочтений и оценку рубрик на основе ВБМ. Для лучшей обработки рассуждений на длинных горизонтах мы дополнительно вводим рабочий процесс Марковских состояний мультиагентной системы (MaMs) для генерации отчетов. Эмпирически мы показываем, что наши генераторы рубрик обеспечивают более дискриминативный и лучше согласованный с человеком контроль по сравнению с существующими стратегиями проектирования рубрик. Более того, при интеграции в учебную среду MaMs системы DeepResearch, оснащенные нашими генераторами рубрик, стабильно превосходят все открытые базовые модели на DeepResearch Bench и демонстрируют результаты, сопоставимые с ведущими закрытыми моделями.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.