Abgeschnittenes Stufenweises Sampling mit Prozessbelohnungen für retrieval-gestütztes Schließen

Zusammenfassung

Das Training großer Sprachmodelle zum schlussfolgernden Denken mit Suchmaschinen mittels Verstärkungslernen wird durch ein grundlegendes Kreditzuweisungsproblem behindert: bestehende Methoden wie Search-R1 bieten nur eine spärliche Ergebnisbelohnung nach einer gesamten mehrstufigen Trajektorie, was es unmöglich macht, Erfolg oder Misserfolg einzelnen Schlussfolgerungs- und Abrufentscheidungen zuzuordnen. Prozessbelohnungsmethoden wie StepSearch mildern dies durch die Einführung von Überwachung auf Schrittebene, basieren jedoch auf heuristischen Belohnungen wie TF-IDF-Überlappung mit Golddokumenten und sampeln weiterhin k vollständige Trajektorien pro Beispiel, was eine hohe Gradientenvarianz beibehält. Wir schlagen SLATE vor, ein Framework, das auf zwei komplementären Ideen aufbaut: (1) *truncated step-level sampling*, das k Trajektorien erzeugt, die ein gemeinsames Präfix teilen und sich nur im nächsten Schritt unterscheiden, und (2) dichte *LLM-as-judge*-Belohnungen, die heuristische Bewertung durch einen leistungsfähigen LLM-Evaluator ersetzen, der die Qualität jedes Denkschritts, jeder Suchanfrage und jeder Antwort bewertet und so eine reichhaltigere und zuverlässigere Überwachung bietet. Wir beweisen theoretisch, dass bei gleicher dichter Belohnungsstruktur das abgeschnittene Sampling die Varianz von Vorteilsschätzungen für T-stufige Trajektorien um bis zu einem Faktor T im Vergleich zum Sampling vollständiger Trajektorien reduziert, was zu Policy-Gradienten mit geringerer Varianz und besserer Zielausrichtung führt. Experimente auf sieben QA-Benchmarks bestätigen, dass SLATE durchgängig sowohl Baseline-Methoden mit spärlicher Belohnung als auch mit Prozessbelohnung übertrifft, mit den größten Verbesserungen bei schwierigeren Multi-Hop-Aufgaben und kleineren Modellen.

English

Training large language models to reason with search engines via reinforcement learning is hindered by a fundamental credit assignment problem: existing methods such as Search-R1 provide only a sparse outcome reward after an entire multi-step trajectory, making it infeasible to attribute success or failure to individual reasoning and retrieval decisions. Process-reward methods like StepSearch alleviate this by introducing step-level supervision, but rely on heuristic rewards such as TF-IDF overlap with gold documents, and still sample k complete trajectories per example, retaining high gradient variance. We propose SLATE, a framework built on two complementary ideas: (1) truncated step-level sampling, which generates k trajectories that share a common prefix and differ only at the next step, and (2) dense LLM-as-judge rewards, which replace heuristic scoring with a capable LLM evaluator that assesses the quality of each reasoning step, search query, and answer, providing richer and more reliable supervision. We theoretically prove that under the same dense reward structure, truncated sampling reduces the variance of advantage estimates by up to a factor of T compared to full-trajectory sampling for T-step trajectories, yielding lower-variance, better-targeted policy gradients. Experiments on seven QA benchmarks confirm that SLATE consistently outperforms both sparse-reward and process-reward baselines, with the largest gains on harder multi-hop tasks and smaller models.

Abgeschnittenes Stufenweises Sampling mit Prozessbelohnungen für retrieval-gestütztes Schließen

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Zusammenfassung

Support