Wiederverwendung synthetischer Daten zur Feinabstimmung der Überwachung von Suchagenten
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
papers.authors: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
Auf LLMs basierende Suchagenten werden zunehmend mit entitätszentrierten synthetischen Daten trainiert, um komplexe, wissensintensive Aufgaben zu lösen. Allerdings verwerfen gängige Trainingsmethoden wie Group Relative Policy Optimization (GRPO) diese wertvollen Entitätsinformationen und stützen sich stattdessen auf spärliche, ergebnisbasierte Belohnungen. Diese kritische Einschränkung führt dazu, dass sie informative "Near-Miss"-Beispiele – solche mit weitgehend korrekter Schlussfolgerung, aber einer fehlerhaften Endantwort – nicht von kompletten Fehlschlägen unterscheiden können und wertvolle Lernsignale verwerfen. Wir adressieren dieses Problem, indem wir genau die Entitäten nutzen, die während des Trainings verworfen werden. Unsere empirische Analyse zeigt eine starke positive Korrelation zwischen der Anzahl der während des Schlussfolgerungsprozesses eines Agenten identifizierten Ground-Truth-Entitäten und der Genauigkeit der Endantwort. Aufbauend auf dieser Erkenntnis führen wir Entity-aware Group Relative Policy Optimization (E-GRPO) ein, einen neuartigen Rahmen, der eine dichte, entitätsbewusste Belohnungsfunktion formuliert. E-GRPO weist falschen Beispielen teilweise Belohnungen proportional zu ihrer Entitäten-Übereinstimmungsrate zu, was es dem Modell ermöglicht, effektiv aus diesen "Near-Misses" zu lernen. Experimente mit verschiedenen Question-Answering (QA) und Deep-Research-Benchmarks zeigen, dass E-GRPO durchgängig und signifikant die GRPO-Baseline übertrifft. Darüber hinaus zeigt unsere Analyse, dass E-GRPO nicht nur eine höhere Genauigkeit erreicht, sondern auch effizientere Schlussfolgerungsstrategien induziert, die weniger Tool-Aufrufe erfordern, was einen effektiveren und sample-effizienteren Ansatz zur Ausrichtung von Suchagenten demonstriert.
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.