ChatPaper.aiChatPaper

Apprentissage de Rubriques Spécifiques aux Requêtes à partir des Préférences Humaines pour la Génération de Rapports de Recherche Approfondie

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

February 3, 2026
papers.authors: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI

papers.abstract

De nos jours, l'entraînement et l'évaluation des rapports générés par DeepResearch restent difficiles en raison de l'absence de signaux de récompense vérifiables. Par conséquent, l'évaluation par grille critériée est devenue une pratique courante. Cependant, les approches existantes reposent soit sur des grilles prédéfinies trop grossières manquant de granularité, soit sur des grilles spécifiques aux requêtes construites manuellement, ce qui est coûteux et difficile à généraliser. Dans cet article, nous proposons une méthode pour entraîner des générateurs de grilles d'évaluation spécifiques aux requêtes, alignés sur les préférences humaines et adaptés à la génération de rapports DeepResearch. Nous construisons d'abord un jeu de données de requêtes de style DeepResearch annotées avec des préférences humaines sur des paires de rapports, puis nous entraînons les générateurs de grilles via un apprentissage par renforcement avec une récompense hybride combinant une supervision des préférences humaines et une évaluation des grilles par modèle de langage. Pour mieux gérer le raisonnement à long terme, nous introduisons en outre un workflow à état Markovien multi-agent (MaMs) pour la génération de rapports. Nous démontrons empiriquement que nos générateurs de grilles fournissent une supervision plus discriminante et mieux alignée sur les préférences humaines que les stratégies de conception de grilles existantes. De plus, lorsqu'ils sont intégrés au cadre d'entraînement MaMs, les systèmes DeepResearch équipés de nos générateurs de grilles surpassent constamment toutes les solutions open-source de référence sur le DeepResearch Bench et atteignent des performances comparables à celles des modèles propriétaires leaders.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.
PDF211February 5, 2026