Het Leren van Query-specifieke Rubrics op Basis van Menselijke Voorkeuren voor Diepgaande Onderzoeksrapportgeneratie
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
February 3, 2026
Auteurs: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI
Samenvatting
Tegenwoordig blijft het trainen en evalueren van DeepResearch-gegenereerde rapporten een uitdaging vanwege het gebrek aan verifieerbare beloningssignalen. Derhalve is op rubriek gebaseerde evaluatie een gangbare praktijk geworden. Bestaande benaderingen vertrouwen echter ofwel op grove, vooraf gedefinieerde rubrieken die onvoldoende granulariteit hebben, of zijn afhankelijk van handmatig geconstrueerde, queryspecifieke rubrieken die kostbaar zijn en moeilijk op te schalen. In dit artikel stellen we een pijplijn voor om queryspecifieke rubricgeneratoren te trainen die zijn afgestemd op menselijke voorkeuren, speciaal voor DeepResearch-rapportgeneratie. We construeren eerst een dataset van DeepResearch-stijl queries, geannoteerd met menselijke voorkeuren voor gepaarde rapporten, en trainen rubricgeneratoren via reinforcement learning met een hybride beloning die menselijke voorkeurssupervisie en op LLM gebaseerde rubric-evaluatie combineert. Om langetermijnredenering beter te kunnen hanteren, introduceren we verder een Multi-agent Markov-state (MaMs) workflow voor rapportgeneratie. We tonen empirisch aan dat onze voorgestelde rubricgeneratoren meer onderscheidende en beter op menselijke voorkeuren afgestemde supervisie opleveren dan bestaande rubricontwerpstrategieën. Bovendien presteren DeepResearch-systemen uitgerust met onze rubricgeneratoren, wanneer geïntegreerd in het MaMs-trainingskader, consistent beter dan alle open-source-baselines op de DeepResearch Bench en bereiken ze een prestatieniveau vergelijkbaar met dat van toonaangevende closed-source modellen.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.