ChatPaper.aiChatPaper

Reutilización de Datos Sintéticos para la Supervisión de Agentes de Búsqueda de Granularidad Fina

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

October 28, 2025
Autores: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

Resumen

Los agentes de búsqueda basados en LLM se entrenan cada vez más con datos sintéticos centrados en entidades para resolver tareas complejas e intensivas en conocimiento. Sin embargo, los métodos de entrenamiento predominantes, como la Optimización de Políticas Relativas por Grupos (GRPO), descartan esta rica información de entidades, dependiendo en su lugar de recompensas dispersas basadas en resultados. Esta limitación crítica les impide distinguir muestras informativas de "casi aciertos" —aquellas con un razonamiento sustancialmente correcto pero una respuesta final defectuosa— de los fracasos completos, descartando así valiosas señales de aprendizaje. Abordamos este problema aprovechando las mismas entidades que se descartan durante el entrenamiento. Nuestro análisis empírico revela una fuerte correlación positiva entre el número de entidades de la verdad fundamental identificadas durante el proceso de razonamiento de un agente y la precisión de la respuesta final. Basándonos en esta idea, presentamos la Optimización de Políticas Relativas por Grupos con Conciencia de Entidades (E-GRPO), un marco novedoso que formula una función de recompensa densa y consciente de las entidades. E-GRPO asigna recompensas parciales a las muestras incorrectas proporcionales a su tasa de coincidencia de entidades, permitiendo que el modelo aprenda efectivamente de estos "casi aciertos". Los experimentos en diversos benchmarks de respuesta a preguntas (QA) e investigación profunda muestran que E-GRPO supera constante y significativamente a la línea base GRPO. Además, nuestro análisis revela que E-GRPO no solo logra una precisión superior, sino que también induce políticas de razonamiento más eficientes que requieren menos llamadas a herramientas, demostrando un enfoque más efectivo y eficiente en muestras para alinear agentes de búsqueda.
English
LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.
PDF232December 1, 2025