REVES : Entraînement augmenté par révision et vérification pour la mise à l’échelle au moment du test
REVES: REvision and VErification--Augmented Training for Test-Time Scaling
June 17, 2026
Auteurs: Yuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong
cs.AI
Résumé
La mise à l'échelle au moment du test via une révision séquentielle est devenue un paradigme puissant pour améliorer le raisonnement des grands modèles de langage (LLM). Cependant, les méthodes standard de post-entraînement optimisent principalement des objectifs en un seul passage, créant un décalage fondamental avec la dynamique d'inférence multi-étapes. Bien que des travaux récents traitent cela comme un apprentissage par renforcement multi-tours (RL), les approches conventionnelles optimisent directement les trajectoires multi-étapes, sans exploiter davantage les erreurs de haute qualité dans les étapes intermédiaires dont le modèle peut apprendre en les corrigeant. Nous proposons un cadre itératif en deux étapes qui alterne entre l'augmentation de données/instructions en ligne et l'optimisation de la politique. En convertissant les étapes intermédiaires (réponses « presque correctes ») dans les trajectoires de récupération réussies en instructions de révision et de vérification découplées, notre approche concentre l'entraînement à la fois sur la transformation efficace des réponses et sur l'identification des erreurs. Cette approche permet une génération de données hors politique efficace et réduit le surcoût computationnel de l'échantillonnage sur long horizon par rapport au RL multi-tours standard. Sur LiveCodeBench, en utilisant des cas de test disponibles publiquement comme retour, nous observons des gains de +6,5 points par rapport à la base RL et de +4,0 points par rapport à l'entraînement multi-tours standard. Au-delà du codage, notre approche égalise le résultat SOTA précédemment rapporté sur le circle packing tout en utilisant le plus petit modèle de base (4B) et beaucoup moins de déploiements que les systèmes de recherche évolutionnaire beaucoup plus grands. Les résultats en mathématiques sous vérification par vérité terrain confirment en outre une capacité de correction améliorée. Elle se généralise également à des puzzles de satisfaction de contraintes hors distribution tels que n_queens et mini_sudoku, où la correction est entièrement définie par les contraintes du problème. Le code est disponible à l'adresse https://github.com/yxliu02/REVES.git.
English
Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent work treats this as multi-turn reinforcement learning (RL), conventional approaches optimize over the multi-step trajectories directly, failing to further exploit the high-quality mistakes in intermediate steps that model can learn from correcting them. We propose a two-stage iterative framework that alternates between online data/prompt augmentation and policy optimization. By converting the intermediate steps (``near-miss'' answers) in the successful recovery trajectories into decoupled revision and verification prompts, our approach concentrates training on both effective answer transformation and error identification. This approach enables efficient off-policy data generation and reduces the computational overhead of long-horizon sampling compared to standard multi-turn RL. On LiveCodeBench, using publicly available test cases as feedback, we observe gains of +6.5 points over the RL baseline and +4.0 points over standard multi-turn training. Beyond coding, our approach matches the previously reported SOTA result on circle packing while using the smallest base model (4B) and far fewer rollouts than the much larger evolutionary search systems. Math results under ground-truth verification further confirm improved correction ability. It also generalizes to out-of-distribution constraint-satisfaction puzzles such as n\_queens and mini\_sudoku, where correctness is defined entirely by problem constraints. Code is available at https://github.com/yxliu02/REVES.git.