Réutilisation des Données Synthétiques pour la Supervision Granulaire des Agents de Recherche
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
papers.authors: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
Les agents de recherche basés sur LLM sont de plus en plus entraînés sur des données synthétiques centrées sur les entités pour résoudre des tâches complexes et intensives en connaissances. Cependant, les méthodes d'entraînement prédominantes comme l'Optimisation de Politique Relative par Groupe (GRPO) ignorent cette riche information entitaire, se reposant plutôt sur des récompenses éparses basées sur les résultats. Cette limitation critique les empêche de distinguer les échantillons informatifs de "quasi-réussites" - ceux avec un raisonnement substantiellement correct mais une réponse finale erronée - des échecs complets, gaspillant ainsi des signaux d'apprentissage précieux. Nous résolvons ce problème en exploitant les entités elles-mêmes écartées durant l'entraînement. Notre analyse empirique révèle une forte corrélation positive entre le nombre d'entités de référence identifiées durant le processus de raisonnement d'un agent et la précision de la réponse finale. Sur la base de cette observation, nous introduisons l'Optimisation de Politique Relative par Groupe Sensible aux Entités (E-GRPO), un cadre novateur qui formule une fonction de récompense dense et sensible aux entités. E-GRPO attribue des récompenses partielles aux échantillons incorrects proportionnellement à leur taux de correspondance entitaire, permettant au modèle d'apprendre efficacement de ces "quasi-réussites". Les expériences sur divers benchmarks de question-réponse (QA) et de recherche approfondie montrent qu'E-GRPO surpasse constamment et significativement la baseline GRPO. De plus, notre analyse révèle qu'E-GRPO non seulement atteint une précision supérieure, mais induit aussi des politiques de raisonnement plus efficaces nécessitant moins d'appels d'outils, démontrant une approche plus efficace et économe en échantillons pour l'alignement des agents de recherche.
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.