Apprendimento di rubriche specifiche per query dalle preferenze umane per la generazione di report di ricerca approfonditi

Abstract

Oggigiorno, l'addestramento e la valutazione di report generati da sistemi di DeepResearch rimangono sfide complesse a causa della mancanza di segnali di ricompenda verificabili. Di conseguenza, la valutazione basata su rubriche è diventata una pratica comune. Tuttavia, gli approcci esistenti si basano su rubriche predefinite troppo generiche, che mancano di granularità sufficiente, oppure dipendono da rubriche specifiche per query costruite manualmente, che sono costose e difficili da scalare. In questo articolo, proponiamo una pipeline per addestrare generatori di rubriche specifiche per query, allineati alle preferenze umane e mirati alla generazione di report di DeepResearch. Inizialmente costruiamo un dataset di query in stile DeepResearch annotate con preferenze umane su report accoppiati, e addestriamo i generatori di rubriche tramite apprendimento per rinforzo con una ricompensa ibrida che combina la supervisione delle preferenze umane e la valutazione delle rubriche basata su LLM. Per gestire meglio il ragionamento a lungo termine, introduciamo inoltre un flusso di lavoro basato su Stati Markoviani Multi-agente (MaMs) per la generazione di report. Dimostriamo empiricamente che i nostri generatori di rubriche forniscono una supervisione più discriminante e meglio allineata alle preferenze umane rispetto alle strategie esistenti di progettazione delle rubriche. Inoltre, quando integrati nel framework di addestramento MaMs, i sistemi DeepResearch equipaggiati con i nostri generatori di rubriche superano costantemente tutti i benchmark open-source sul DeepResearch Bench e raggiungono prestazioni paragonabili a quelle dei modelli closed-source leader.

English

Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.

Apprendimento di rubriche specifiche per query dalle preferenze umane per la generazione di report di ricerca approfonditi

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Abstract

Support