Muestreo a Nivel de Paso Truncado con Recompensas de Proceso para el Razonamiento Aumentado por Recuperación

Resumen

El entrenamiento de grandes modelos de lenguaje para razonar con motores de búsqueda mediante aprendizaje por refuerzo se ve obstaculizado por un problema fundamental de asignación de crédito: los métodos existentes, como Search-R1, proporcionan únicamente una recompensa de resultado dispersa tras una trayectoria completa de múltiples pasos, lo que hace inviable atribuir el éxito o el fracaso a decisiones individuales de razonamiento y recuperación. Métodos de recompensa de proceso como StepSearch mitigan esto introduciendo supervisión a nivel de paso, pero dependen de recompensas heurísticas como la superposición TF-IDF con documentos de referencia, y aún muestrean k trayectorias completas por ejemplo, manteniendo una alta varianza en el gradiente. Proponemos SLATE, un marco basado en dos ideas complementarias: (1) muestreo truncado a nivel de paso, que genera k trayectorias que comparten un prefijo común y difieren solo en el siguiente paso, y (2) recompensas densas de LLM-como-juez, que reemplazan la puntuación heurística con un evaluador LLM capaz que valora la calidad de cada paso de razonamiento, consulta de búsqueda y respuesta, proporcionando una supervisión más rica y fiable. Demostramos teóricamente que, bajo la misma estructura de recompensa densa, el muestreo truncado reduce la varianza de las estimaciones de ventaja hasta en un factor de T en comparación con el muestreo de trayectoria completa para trayectorias de T pasos, produciendo gradientes de política con menor varianza y mejor dirigidos. Los experimentos en siete benchmarks de preguntas y respuestas confirman que SLATE supera consistentemente tanto a las líneas base de recompensa dispersa como a las de recompensa de proceso, con las mayores mejoras en tareas multinivel más difíciles y en modelos más pequeños.

English

Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.

Muestreo a Nivel de Paso Truncado con Recompensas de Proceso para el Razonamiento Aumentado por Recuperación

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Resumen

Support