Aprendizaje de Rúbricas Específicas por Consulta a partir de Preferencias Humanas para la Generación de Informes de Investigación Profunda
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
February 3, 2026
Autores: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI
Resumen
Actualmente, la formación y evaluación de informes generados por DeepResearch sigue siendo un desafío debido a la falta de señales de recompensa verificables. En consecuencia, la evaluación basada en rúbricas se ha convertido en una práctica común. Sin embargo, los enfoques existentes dependen de rúbricas predefinidas y generales que carecen de la granularidad suficiente, o de rúbricas específicas para cada consulta construidas manualmente, lo cual es costoso y difícil de escalar. En este artículo, proponemos un proceso para entrenar generadores de rúbricas específicas por consulta, alineados con las preferencias humanas y adaptados para la generación de informes de DeepResearch. Primero construimos un conjunto de datos de consultas al estilo DeepResearch anotadas con preferencias humanas sobre informes emparejados, y entrenamos generadores de rúbricas mediante aprendizaje por refuerzo con una recompensa híbrida que combina la supervisión de preferencias humanas y la evaluación de rúbricas basada en LLM. Para manejar mejor el razonamiento de largo horizonte, introducimos además un flujo de trabajo de Estados de Markov Multi-agente (MaMs) para la generación de informes. Demostramos empíricamente que nuestros generadores de rúbricas proporcionan una supervisión más discriminativa y mejor alineada con los humanos que las estrategias de diseño de rúbricas existentes. Además, cuando se integran en el marco de entrenamiento MaMs, los sistemas DeepResearch equipados con nuestros generadores de rúbricas superan consistentemente a todos los baselines de código abierto en DeepResearch Bench y logran un rendimiento comparable al de los modelos cerrados líderes.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.