Перепрофилирование синтетических данных для детального контроля поисковых агентов
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
Авторы: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
Аннотация
Поисковые агенты на основе больших языковых моделей все чаще обучаются на синтетических данных, ориентированных на сущности, для решения сложных, насыщенных знаниями задач. Однако преобладающие методы обучения, такие как Group Relative Policy Optimization (GRPO), отбрасывают эту богатую информацию о сущностях, полагаясь вместо этого на разреженные, основанные на результате вознаграждения. Это фундаментальное ограничение не позволяет им отличать информативные «близкие к успеху» примеры — те, где присутствует в целом верная логика рассуждений, но ошибочный конечный ответ — от полных провалов, что приводит к потере ценных обучающих сигналов. Мы решаем эту проблему, используя сами сущности, отбрасываемые в процессе обучения. Наш эмпирический анализ выявляет сильную положительную корреляцию между количеством эталонных сущностей, идентифицированных в процессе рассуждений агента, и точностью конечного ответа. Основываясь на этом наблюдении, мы представляем Entity-aware Group Relative Policy Optimization (E-GRPO) — новую структуру, которая формулирует плотную функцию вознаграждения, учитывающую сущности. E-GRPO назначает частичные вознаграждения неверным примерам пропорционально их степени соответствия сущностям, позволяя модели эффективно обучаться на этих «близких к успеху» случаях. Эксперименты на различных наборах данных для вопросно-ответных систем и глубокого поиска показывают, что E-GRPO стабильно и значительно превосходит базовый метод GRPO. Более того, наш анализ показывает, что E-GRPO не только достигает более высокой точности, но и формирует более эффективные стратегии рассуждений, требующие меньшего количества вызовов инструментов, что демонстрирует более эффективный и экономный в плане данных подход к согласованию поисковых агентов.
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.