Lernen rubrikspezifischer Bewertungskriterien aus menschlichen Präferenzen für die automatische Generierung von Forschungsberichten
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
February 3, 2026
papers.authors: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI
papers.abstract
Heutzutage bleiben das Training und die Bewertung von DeepResearch-generierten Berichten aufgrund des Mangels an verifizierbaren Belohnungssignalen eine Herausforderung. Dementsprechend hat sich die bewertungsrasterbasierte Evaluation zu einer gängigen Praxis entwickelt. Bestehende Ansätze verlassen sich jedoch entweder auf grobe, vordefinierte Bewertungsraster, denen eine ausreichende Granularität fehlt, oder auf manuell erstellte, abfragespezifische Raster, die kostspielig und schwer zu skalieren sind. In diesem Artikel schlagen wir eine Pipeline vor, um an menschliche Präferenzen angepasste, abfragespezifische Bewertungsraster-Generatoren für die DeepResearch-Berichterstellung zu trainieren. Wir erstellen zunächst einen Datensatz mit DeepResearch-artigen Abfragen, die mit menschlichen Präferenzen für Berichtspaare annotiert sind, und trainieren die Raster-Generatoren mittels Reinforcement Learning mit einer hybriden Belohnungsfunktion, die menschliche Präferenzüberwachung und LLM-basierte Rasterbewertung kombiniert. Um langfristiges Schlussfolgern besser zu handhaben, führen wir weiterhin einen Multi-Agenten-Markov-Zustands (MaMs)-Workflow für die Berichtsgenerierung ein. Wir zeigen empirisch, dass unsere vorgeschlagenen Raster-Generatoren eine diskriminativere und besser an menschliche Präferenzen angepasste Überwachung liefern als bestehende Raster-Design-Strategien. Darüber hinaus übertreffen DeepResearch-Systeme, die mit unseren Raster-Generatoren im MaMs-Trainingsframework integriert sind, durchgängig alle Open-Source-Baseline-Systeme auf der DeepResearch Bench und erreichen eine Leistung, die mit der führender Closed-Source-Modelle vergleichbar ist.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.