ChatPaper.aiChatPaper

Reutilização de Dados Sintéticos para Supervisão de Agentes de Busca com Granularidade Fina

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

October 28, 2025
Autores: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Resumo

Os agentes de busca baseados em LLM são cada vez mais treinados com dados sintéticos centrados em entidades para resolver tarefas complexas e intensivas em conhecimento. No entanto, métodos de treinamento predominantes como a Otimização de Política Relativa de Grupo (GRPO) descartam essa rica informação de entidades, dependendo instead de recompensas esparsas baseadas em resultados. Esta limitação crítica impede que distingam amostras informativas de "quase acertos" – aquelas com raciocínio substancialmente correto, mas uma resposta final falha – de falhas completas, descartando assim sinais valiosos de aprendizado. Abordamos este problema aproveitando as próprias entidades descartadas durante o treinamento. Nossa análise empírica revela uma forte correlação positiva entre o número de entidades verdadeiras identificadas durante o processo de raciocínio de um agente e a precisão da resposta final. Com base nessa percepção, introduzimos a Otimização de Política Relativa de Grupo com Consciência de Entidades (E-GRPO), uma estrutura inovadora que formula uma função de recompensa densa e consciente de entidades. A E-GRPO atribui recompensas parciais a amostras incorretas proporcionais à sua taxa de correspondência de entidades, permitindo que o modelo aprenda efetivamente com esses "quase acertos". Experimentos em diversos benchmarks de questionamento-resposta (QA) e pesquisa profunda mostram que a E-GRPO supera consistentemente e significativamente a linha de base GRPO. Além disso, nossa análise revela que a E-GRPO não apenas alcança precisão superior, mas também induz políticas de raciocínio mais eficientes que exigem menos chamadas de ferramentas, demonstrando uma abordagem mais eficaz e eficiente em amostras para alinhar agentes de busca.
English
LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.
PDF252February 7, 2026