Reutilización de Datos Sintéticos para la Supervisión de Agentes de Búsqueda de Granularidad Fina
Repurposing Synthetic Data for Fine-grained Search Agent Supervision
October 28, 2025
Autores: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI
Resumen
Los agentes de búsqueda basados en LLM se entrenan cada vez más con datos sintéticos centrados en entidades para resolver tareas complejas e intensivas en conocimiento. Sin embargo, los métodos de entrenamiento predominantes, como la Optimización de Políticas Relativas por Grupos (GRPO), descartan esta rica información de entidades, dependiendo en su lugar de recompensas dispersas basadas en resultados. Esta limitación crítica les impide distinguir muestras informativas de "casi aciertos" —aquellas con un razonamiento sustancialmente correcto pero una respuesta final defectuosa— de los fracasos completos, descartando así valiosas señales de aprendizaje. Abordamos este problema aprovechando las mismas entidades que se descartan durante el entrenamiento. Nuestro análisis empírico revela una fuerte correlación positiva entre el número de entidades de la verdad fundamental identificadas durante el proceso de razonamiento de un agente y la precisión de la respuesta final. Basándonos en esta idea, presentamos la Optimización de Políticas Relativas por Grupos con Conciencia de Entidades (E-GRPO), un marco novedoso que formula una función de recompensa densa y consciente de las entidades. E-GRPO asigna recompensas parciales a las muestras incorrectas proporcionales a su tasa de coincidencia de entidades, permitiendo que el modelo aprenda efectivamente de estos "casi aciertos". Los experimentos en diversos benchmarks de respuesta a preguntas (QA) e investigación profunda muestran que E-GRPO supera constante y significativamente a la línea base GRPO. Además, nuestro análisis revela que E-GRPO no solo logra una precisión superior, sino que también induce políticas de razonamiento más eficientes que requieren menos llamadas a herramientas, demostrando un enfoque más efectivo y eficiente en muestras para alinear agentes de búsqueda.
English
LLM-based search agents are increasingly trained on entity-centric synthetic
data to solve complex, knowledge-intensive tasks. However, prevailing training
methods like Group Relative Policy Optimization (GRPO) discard this rich entity
information, relying instead on sparse, outcome-based rewards. This critical
limitation renders them unable to distinguish informative "near-miss"
samples-those with substantially correct reasoning but a flawed final
answer-from complete failures, thus discarding valuable learning signals. We
address this by leveraging the very entities discarded during training. Our
empirical analysis reveals a strong positive correlation between the number of
ground-truth entities identified during an agent's reasoning process and final
answer accuracy. Building on this insight, we introduce Entity-aware Group
Relative Policy Optimization (E-GRPO), a novel framework that formulates a
dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect
samples proportional to their entity match rate, enabling the model to
effectively learn from these "near-misses". Experiments on diverse
question-answering (QA) and deep research benchmarks show that E-GRPO
consistently and significantly outperforms the GRPO baseline. Furthermore, our
analysis reveals that E-GRPO not only achieves superior accuracy but also
induces more efficient reasoning policies that require fewer tool calls,
demonstrating a more effective and sample-efficient approach to aligning search
agents.