REVES: REvision und VErifikation – erweitertes Training für Testzeit-Skalierung

Zusammenfassung

Testzeit-Skalierung durch sequentielle Überarbeitung hat sich als leistungsfähiges Paradigma zur Verbesserung der Argumentationsfähigkeit großer Sprachmodelle (LLMs) erwiesen. Allerdings optimieren standardmäßige Post-Training-Methoden hauptsächlich Ein-Punkt-Ziele, was zu einer grundlegenden Fehlanpassung an die Dynamik mehrstufiger Inferenz führt. Während neuere Arbeiten dies als mehrstufiges Reinforcement Learning (RL) behandeln, optimieren konventionelle Ansätze direkt die mehrstufigen Trajektorien und versäumen es, die qualitativ hochwertigen Fehler in Zwischenschritten weiter auszunutzen, aus deren Korrektur das Modell lernen kann. Wir schlagen ein zweistufiges iteratives Framework vor, das zwischen Online-Daten/Prompt-Anreicherung und Politikoptimierung wechselt. Indem die Zwischenschritte („Beinahe-Treffer“-Antworten) in den erfolgreichen Wiederherstellungsbahnen in entkoppelte Überarbeitungs- und Verifikationsaufforderungen umgewandelt werden, konzentriert sich unser Ansatz sowohl auf effektive Antworttransformation als auch auf Fehleridentifikation. Dieser Ansatz ermöglicht eine effiziente Off-Policy-Datengenerierung und reduziert den Rechenaufwand von Langzeitsampling im Vergleich zu standardmäßigem mehrstufigem RL. Auf LiveCodeBench beobachten wir unter Verwendung öffentlich verfügbarer Testfälle als Feedback Gewinne von +6,5 Punkten gegenüber der RL-Baseline und +4,0 Punkten gegenüber standardmäßigem mehrstufigem Training. Über das Programmieren hinaus erreicht unser Ansatz das zuvor berichtete SOTA-Ergebnis bei der Kreispackung, während er das kleinste Basismodell (4B) und weitaus weniger Rollouts verwendet als die wesentlich größeren evolutionären Suchsysteme. Mathematische Ergebnisse unter Ground-Truth-Verifikation bestätigen zudem eine verbesserte Korrekturfähigkeit. Es verallgemeinert sich auch auf nicht-verteilungskonforme Constraints-Erfüllungs-Puzzles wie n-Damen und Mini-Sudoku, bei denen Korrektheit vollständig durch Problemrestriktionen definiert wird. Code ist verfügbar unter https://github.com/yxliu02/REVES.git.

English

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent work treats this as multi-turn reinforcement learning (RL), conventional approaches optimize over the multi-step trajectories directly, failing to further exploit the high-quality mistakes in intermediate steps that model can learn from correcting them. We propose a two-stage iterative framework that alternates between online data/prompt augmentation and policy optimization. By converting the intermediate steps (``near-miss'' answers) in the successful recovery trajectories into decoupled revision and verification prompts, our approach concentrates training on both effective answer transformation and error identification. This approach enables efficient off-policy data generation and reduces the computational overhead of long-horizon sampling compared to standard multi-turn RL. On LiveCodeBench, using publicly available test cases as feedback, we observe gains of +6.5 points over the RL baseline and +4.0 points over standard multi-turn training. Beyond coding, our approach matches the previously reported SOTA result on circle packing while using the smallest base model (4B) and far fewer rollouts than the much larger evolutionary search systems. Math results under ground-truth verification further confirm improved correction ability. It also generalizes to out-of-distribution constraint-satisfaction puzzles such as n\_queens and mini\_sudoku, where correctness is defined entirely by problem constraints. Code is available at https://github.com/yxliu02/REVES.git.