Wiederverwendung synthetischer Daten zur Feinabstimmung der Überwachung von Suchagenten

papers.abstract

Auf LLMs basierende Suchagenten werden zunehmend mit entitätszentrierten synthetischen Daten trainiert, um komplexe, wissensintensive Aufgaben zu lösen. Allerdings verwerfen gängige Trainingsmethoden wie Group Relative Policy Optimization (GRPO) diese wertvollen Entitätsinformationen und stützen sich stattdessen auf spärliche, ergebnisbasierte Belohnungen. Diese kritische Einschränkung führt dazu, dass sie informative "Near-Miss"-Beispiele – solche mit weitgehend korrekter Schlussfolgerung, aber einer fehlerhaften Endantwort – nicht von kompletten Fehlschlägen unterscheiden können und wertvolle Lernsignale verwerfen. Wir adressieren dieses Problem, indem wir genau die Entitäten nutzen, die während des Trainings verworfen werden. Unsere empirische Analyse zeigt eine starke positive Korrelation zwischen der Anzahl der während des Schlussfolgerungsprozesses eines Agenten identifizierten Ground-Truth-Entitäten und der Genauigkeit der Endantwort. Aufbauend auf dieser Erkenntnis führen wir Entity-aware Group Relative Policy Optimization (E-GRPO) ein, einen neuartigen Rahmen, der eine dichte, entitätsbewusste Belohnungsfunktion formuliert. E-GRPO weist falschen Beispielen teilweise Belohnungen proportional zu ihrer Entitäten-Übereinstimmungsrate zu, was es dem Modell ermöglicht, effektiv aus diesen "Near-Misses" zu lernen. Experimente mit verschiedenen Question-Answering (QA) und Deep-Research-Benchmarks zeigen, dass E-GRPO durchgängig und signifikant die GRPO-Baseline übertrifft. Darüber hinaus zeigt unsere Analyse, dass E-GRPO nicht nur eine höhere Genauigkeit erreicht, sondern auch effizientere Schlussfolgerungsstrategien induziert, die weniger Tool-Aufrufe erfordern, was einen effektiveren und sample-effizienteren Ansatz zur Ausrichtung von Suchagenten demonstriert.

English

LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.

Wiederverwendung synthetischer Daten zur Feinabstimmung der Überwachung von Suchagenten

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

papers.abstract

Support