合成データの再利用による詳細検索エージェントの教師信号生成
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
著者: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
要旨
LLMベースの検索エージェントは、複雑で知識集約的なタスクを解決するために、エンティティ中心の合成データで学習されることが増えている。しかし、Group Relative Policy Optimization(GRPO)のような主流の学習手法では、この豊富なエンティティ情報が捨てられ、代わりにスパースで結果ベースの報酬に依存している。この重大な限界により、情報量の多い「ニアミス」サンプル(推論はほぼ正しいが最終回答が不正確なもの)と完全な失敗とを区別できず、貴重な学習シグナルが失われてしまう。我々は、学習中に捨てられているエンティティそのものを活用することでこの問題に取り組む。実証分析により、エージェントの推論プロセス中に特定された正解エンティティの数と最終回答の精度との間に強い正の相関があることが明らかになった。この知見に基づき、我々はEntity-aware Group Relative Policy Optimization(E-GRPO)という新規フレームワークを提案する。これは、密なエンティティを考慮した報酬関数を定式化するものである。E-GRPOは、不正解サンプルに対し、そのエンティティ一致率に比例した部分報酬を割り当てることで、モデルがこれらの「ニアミス」から効果的に学習することを可能にする。多様な質問応答(QA)および深層調査ベンチマークにおける実験により、E-GRPOがGRPOベースラインを一貫して大幅に上回ることを示す。さらに分析の結果、E-GRPOは精度の向上だけでなく、より少ないツール呼び出しで済む効率的な推論方策を誘導し、検索エージェントのアラインメントにおいてより効果的でサンプル効率の高いアプローチを実現することが明らかになった。
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.