Aprendendo Rubricas Específicas para Consultas a partir de Preferências Humanas para Geração de Relatórios de Pesquisa Aprofundada

Resumo

Atualmente, o treinamento e a avaliação de relatórios gerados por sistemas de DeepResearch continuam sendo um desafio devido à falta de sinais de recompensa verificáveis. Consequentemente, a avaliação baseada em rubricas tornou-se uma prática comum. No entanto, as abordagens existentes ou dependem de rubricas predefinidas e excessivamente genéricas que carecem de granularidade suficiente, ou dependem de rubricas específicas por consulta, construídas manualmente, que são dispendiosas e difíceis de escalar. Neste artigo, propomos um *pipeline* para treinar geradores de rubricas específicas por consulta, alinhadas com a preferência humana e adaptadas para a geração de relatórios de DeepResearch. Primeiro, construímos um conjunto de dados de consultas no estilo DeepResearch anotadas com preferências humanas sobre relatórios pareados, e treinamos os geradores de rubricas por meio de aprendizagem por reforço com uma recompensa híbrida que combina a supervisão da preferência humana e a avaliação de rubricas baseada em *LLMs*. Para lidar melhor com o raciocínio de longo prazo, introduzimos ainda um fluxo de trabalho baseado em Estados de Markov Multiagente (MaMs, na sigla em inglês) para a geração de relatórios. Demonstramos empiricamente que os nossos geradores de rubricas propostos fornecem uma supervisão mais discriminativa e melhor alinhada com a preferência humana do que as estratégias de design de rubricas existentes. Além disso, quando integrados no framework de treinamento MaMs, os sistemas de DeepResearch equipados com os nossos geradores de rubricas superam consistentemente todas as *baselines* de código aberto no *DeepResearch Bench* e alcançam um desempenho comparável ao dos principais modelos proprietários (*closed-source*).

English

Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.

Aprendendo Rubricas Específicas para Consultas a partir de Preferências Humanas para Geração de Relatórios de Pesquisa Aprofundada

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Resumo

Support