Amostragem em Nível de Passo Truncada com Recompensas de Processo para Raciocínio Aumentado por Recuperação

Resumo

O treinamento de grandes modelos de linguagem para raciocinar com motores de busca através de aprendizagem por reforço é dificultado por um problema fundamental de atribuição de crédito: métodos existentes, como o Search-R1, fornecem apenas uma recompensa de resultado esparsa após uma trajetória completa de múltiplos passos, tornando inviável atribuir o sucesso ou o fracasso a decisões individuais de raciocínio e recuperação. Métodos de recompensa de processo, como o StepSearch, aliviam isso introduzindo supervisão a nível de passo, mas dependem de recompensas heurísticas, como a sobreposição TF-IDF com documentos de referência, e ainda amostram k trajetórias completas por exemplo, mantendo uma alta variância do gradiente. Propomos o SLATE, uma estrutura construída sobre duas ideias complementares: (1) amostragem truncada a nível de passo, que gera k trajetórias que compartilham um prefixo comum e diferem apenas no passo seguinte, e (2) recompensas densas de "LLM-como-juiz", que substituem a pontuação heurística por um avaliador LLM capaz que avalia a qualidade de cada passo de raciocínio, consulta de busca e resposta, fornecendo uma supervisão mais rica e confiável. Provamos teoricamente que, sob a mesma estrutura de recompensa densa, a amostragem truncada reduz a variância das estimativas de vantagem em até um fator de T em comparação com a amostragem de trajetória completa para trajetórias de T passos, resultando em gradientes de política com menor variância e mais bem direcionados. Experimentos em sete benchmarks de Q&A confirmam que o SLATE supera consistentemente tanto as linhas de base de recompensa esparsa quanto as de recompensa de processo, com os maiores ganhos em tarefas mais difíceis de múltiplos saltos e em modelos menores.

English

Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.

Amostragem em Nível de Passo Truncada com Recompensas de Processo para Raciocínio Aumentado por Recuperação

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Resumo

Support