Réutilisation des Données Synthétiques pour la Supervision Granulaire des Agents de Recherche

papers.abstract

Les agents de recherche basés sur LLM sont de plus en plus entraînés sur des données synthétiques centrées sur les entités pour résoudre des tâches complexes et intensives en connaissances. Cependant, les méthodes d'entraînement prédominantes comme l'Optimisation de Politique Relative par Groupe (GRPO) ignorent cette riche information entitaire, se reposant plutôt sur des récompenses éparses basées sur les résultats. Cette limitation critique les empêche de distinguer les échantillons informatifs de "quasi-réussites" - ceux avec un raisonnement substantiellement correct mais une réponse finale erronée - des échecs complets, gaspillant ainsi des signaux d'apprentissage précieux. Nous résolvons ce problème en exploitant les entités elles-mêmes écartées durant l'entraînement. Notre analyse empirique révèle une forte corrélation positive entre le nombre d'entités de référence identifiées durant le processus de raisonnement d'un agent et la précision de la réponse finale. Sur la base de cette observation, nous introduisons l'Optimisation de Politique Relative par Groupe Sensible aux Entités (E-GRPO), un cadre novateur qui formule une fonction de récompense dense et sensible aux entités. E-GRPO attribue des récompenses partielles aux échantillons incorrects proportionnellement à leur taux de correspondance entitaire, permettant au modèle d'apprendre efficacement de ces "quasi-réussites". Les expériences sur divers benchmarks de question-réponse (QA) et de recherche approfondie montrent qu'E-GRPO surpasse constamment et significativement la baseline GRPO. De plus, notre analyse révèle qu'E-GRPO non seulement atteint une précision supérieure, mais induit aussi des politiques de raisonnement plus efficaces nécessitant moins d'appels d'outils, démontrant une approche plus efficace et économe en échantillons pour l'alignement des agents de recherche.

English

LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.

Réutilisation des Données Synthétiques pour la Supervision Granulaire des Agents de Recherche

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

papers.abstract

Support