ChatPaper.aiChatPaper

Riutilizzo di Dati Sintetici per la Supervisione di Agenti di Ricerca di Precisione

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

October 28, 2025
Autori: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Abstract

Gli agenti di ricerca basati su LLM vengono sempre più addestrati su dati sintetici incentrati sulle entità per risolvere compiti complessi e ad alta intensità di conoscenza. Tuttavia, i metodi di addestramento prevalenti come l'ottimizzazione della politica relativa di gruppo (GRPO) scartano queste preziose informazioni sulle entità, basandosi invece su ricompense sparse e orientate al risultato. Questa limitazione critica impedisce loro di distinguere i campioni informativi di "near-miss" - quelli con un ragionamento sostanzialmente corretto ma una risposta finale errata - dai fallimenti completi, scartando così segnali di apprendimento preziosi. Noi affrontiamo questo problema sfruttando proprio le entità scartate durante l'addestramento. La nostra analisi empirica rivela una forte correlazione positiva tra il numero di entità ground-truth identificate durante il processo di ragionamento di un agente e l'accuratezza della risposta finale. Basandoci su questa intuizione, introduciamo l'ottimizzazione della politica relativa di gruppo consapevole delle entità (E-GRPO), un framework innovativo che formula una funzione di ricompensa densa e aware delle entità. E-GRPO assegna ricompense parziali ai campioni errati proporzionalmente al loro tasso di corrispondenza delle entità, consentendo al modello di apprendere efficacemente da questi "near-miss". Esperimenti su diversi benchmark di question-answering (QA) e ricerca approfondita mostrano che E-GRPO supera costantemente e significativamente la baseline GRPO. Inoltre, la nostra analisi rivela che E-GRPO non solo raggiunge un'accuratezza superiore, ma induce anche politiche di ragionamento più efficienti che richiedono un minor numero di chiamate a strumenti, dimostrando un approccio più efficace ed efficiente dal punto di vista campionario per l'allineamento degli agenti di ricerca.
English
LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.
PDF232December 1, 2025