Hergebruik van Synthetische Data voor Gedetailleerde Supervisie van Zoekagenten
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
Auteurs: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
Samenvatting
Op LLM gebaseerde zoekagentschappen worden steeds vaker getraind op entiteitsgerichte synthetische data om complexe, kennisintensieve taken op te lossen. Huidige trainingsmethoden zoals Group Relative Policy Optimization (GRPO) negeren echter deze rijke entiteitsinformatie en vertrouwen in plaats daarvan op schaarse, op uitkomsten gebaseerde beloningen. Deze fundamentele beperking maakt ze niet in staat om informatieve "bijna-correcte" voorbeelden – die een grotendeels correcte redenering maar een foutief eindantwoord hebben – te onderscheiden van volledige mislukkingen, waardoor waardevolle leerinformatie verloren gaat. Wij lossen dit op door gebruik te maken van de entiteiten die tijdens de training worden genegeerd. Onze empirische analyse toont een sterke positieve correlatie tussen het aantal grondwaarheid-entiteiten dat tijdens het redeneerproces van een agent wordt geïdentificeerd en de nauwkeurigheid van het eindantwoord. Op basis van dit inzicht introduceren we Entity-aware Group Relative Policy Optimization (E-GRPO), een nieuw framework dat een dense, entiteitsbewuste beloningsfunctie formuleert. E-GRPO kent gedeeltelijke beloningen toe aan incorrecte voorbeelden in verhouding tot hun entiteit-matchpercentage, waardoor het model effectief kan leren van deze "bijna-correcte" voorbeelden. Experimenten op uiteenlopende vraag-antwoord (QA) en diepgaande onderzoeksbenchmarks tonen aan dat E-GRPO consistent en significant beter presteert dan de GRPO-baseline. Bovendien toont onze analyse aan dat E-GRPO niet alleen superieure nauwkeurigheid bereikt, maar ook efficiëntere redeneerstrategieën induceert die minder tool-aanroepen vereisen, wat een effectievere en sample-efficiëntere benadering voor het aligneren van zoekagentschappen demonstreert.
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.