Campionamento a Livello di Passo Troncato con Ricompense di Processo per il Ragionamento Aumentato con Recupero

Abstract

L'addestramento di grandi modelli linguistici per ragionare con i motori di ricerca tramite apprendimento per rinforzo è ostacolato da un problema fondamentale di assegnazione del credito: metodi esistenti come Search-R1 forniscono solo una ricompensa finale sparsa dopo un'intera traiettoria multi-step, rendendo impossibile attribuire il successo o il fallimento a singole decisioni di ragionamento e recupero. Metodi a ricompensa di processo come StepSearch mitigano questo problema introducendo una supervisione a livello di step, ma si basano su ricompense euristiche come la sovrapposizione TF-IDF con documenti gold standard, e campionano comunque k traiettorie complete per esempio, mantenendo un'elevata varianza del gradiente. Proponiamo SLATE, un framework basato su due idee complementari: (1) campionamento troncato a livello di step, che genera k traiettorie che condividono un prefisso comune e differiscono solo allo step successivo, e (2) ricompense dense "LLM-as-judge", che sostituiscono la valutazione euristica con un valutatore LLM capace che valuta la qualità di ogni step di ragionamento, query di ricerca e risposta, fornendo una supervisione più ricca e affidabile. Dimostriamo teoricamente che, sotto la stessa struttura di ricompensa densa, il campionamento troncato riduce la varianza delle stime del vantaggio fino a un fattore T rispetto al campionamento dell'intera traiettoria per traiettorie di T step, producendo gradienti di politica con varianza inferiore e meglio mirati. Esperimenti su sette benchmark di QA confermano che SLATE supera costantemente sia i baseline a ricompensa sparsa che quelli a ricompensa di processo, con i maggiori miglioramenti su task multi-hop più difficili e su modelli più piccoli.

English

Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.

Campionamento a Livello di Passo Troncato con Ricompense di Processo per il Ragionamento Aumentato con Recupero

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Abstract

Support