REVES: Revisie en Verificatie – Verrijkte training voor testtijd-schaling

Samenvatting

Testtijd-schaling via sequentiële revisie is naar voren gekomen als een krachtig paradigma voor het verbeteren van het redeneervermogen van grote taalmodellen (LLM's). Standaard post-trainingsmethoden optimaliseren echter voornamelijk eenmalige doelen, wat een fundamentele mismatch creëert met de dynamiek van meerstapsinferentie. Hoewel recent werk dit behandelt als meerronde-reinforcement learning (RL), optimaliseren conventionele benaderingen direct de meerstapstrajecten, waardoor ze de hoogwaardige fouten in tussenstappen niet verder benutten waar het model van kan leren door ze te corrigeren. Wij stellen een tweefasig iteratief raamwerk voor dat afwisselt tussen online data-/promptaangroei en beleidsoptimalisatie. Door de tussenstappen ("bijna-goede" antwoorden) in de succesvolle hersteltrajecten om te zetten in ontkoppelde revisie- en verificatieprompts, concentreert onze aanpak de training op zowel effectieve antwoordtransformatie als foutidentificatie. Deze aanpak maakt efficiënte off-policy datageneratie mogelijk en vermindert de computationele overhead van langdurige bemonstering in vergelijking met standaard meerronde-RL. Op LiveCodeBench, met behulp van openbaar beschikbare testgevallen als feedback, zien we winsten van +6,5 punten ten opzichte van de RL-baseline en +4,0 punten ten opzichte van standaard meerronde-training. Naast coderen evenaart onze aanpak het eerder gerapporteerde SOTA-resultaat voor cirkelpakking, terwijl het het kleinste basismodel (4B) gebruikt en veel minder rollouts dan de veel grotere evolutionaire zoeksystemen. Wiskunderesultaten onder grondwaarheidsverificatie bevestigen verder een verbeterd correctievermogen. Het generaliseert ook naar beperkingsbevredigingspuzzels buiten de distributie, zoals n-koninginnen en mini-sudoku, waar correctheid volledig wordt gedefinieerd door probleembeperkingen. Code is beschikbaar op https://github.com/yxliu02/REVES.git.

English

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent work treats this as multi-turn reinforcement learning (RL), conventional approaches optimize over the multi-step trajectories directly, failing to further exploit the high-quality mistakes in intermediate steps that model can learn from correcting them. We propose a two-stage iterative framework that alternates between online data/prompt augmentation and policy optimization. By converting the intermediate steps (``near-miss'' answers) in the successful recovery trajectories into decoupled revision and verification prompts, our approach concentrates training on both effective answer transformation and error identification. This approach enables efficient off-policy data generation and reduces the computational overhead of long-horizon sampling compared to standard multi-turn RL. On LiveCodeBench, using publicly available test cases as feedback, we observe gains of +6.5 points over the RL baseline and +4.0 points over standard multi-turn training. Beyond coding, our approach matches the previously reported SOTA result on circle packing while using the smallest base model (4B) and far fewer rollouts than the much larger evolutionary search systems. Math results under ground-truth verification further confirm improved correction ability. It also generalizes to out-of-distribution constraint-satisfaction puzzles such as n\_queens and mini\_sudoku, where correctness is defined entirely by problem constraints. Code is available at https://github.com/yxliu02/REVES.git.