REVES: Обучение с дополнением ревизией и верификацией для масштабирования во время тестирования

Аннотация

Масштабирование во время тестирования с помощью последовательного редактирования стало мощной парадигмой для улучшения рассуждений больших языковых моделей (LLM). Однако стандартные методы пост-обучения в основном оптимизируют одноразовые цели, что создает фундаментальное несоответствие с динамикой многошагового вывода. Хотя недавние работы рассматривают это как многошаговое обучение с подкреплением (RL), традиционные подходы оптимизируют непосредственно многошаговые траектории, не используя в полной мере высококачественные ошибки на промежуточных шагах, из исправления которых модель может извлечь пользу. Мы предлагаем двухэтапную итерационную структуру, которая чередует онлайн-аугментацию данных/подсказок и оптимизацию политики. Преобразуя промежуточные шаги (ответы «почти правильные») в успешных траекториях восстановления в раздельные подсказки для редактирования и проверки, наш подход сосредотачивает обучение как на эффективном преобразовании ответов, так и на выявлении ошибок. Этот подход обеспечивает эффективную генерацию данных вне политики и снижает вычислительные затраты на выборку с длинным горизонтом по сравнению со стандартным многошаговым RL. На LiveCodeBench, используя общедоступные тестовые случаи в качестве обратной связи, мы наблюдаем прирост на +6,5 балла по сравнению с базовым RL и на +4,0 балла по сравнению со стандартным многошаговым обучением. Помимо программирования, наш подход достигает ранее сообщенного результата SOTA по упаковке кругов, используя самую маленькую базовую модель (4B) и гораздо меньшее количество прогонов, чем гораздо более крупные системы эволюционного поиска. Результаты по математике при проверке с помощью истинных данных дополнительно подтверждают улучшенную способность к исправлению. Он также обобщается на внедистрибутивные головоломки на удовлетворение ограничений, такие как n-ферзей и мини-судоку, где правильность полностью определяется условиями задачи. Код доступен по ссылке https://github.com/yxliu02/REVES.git.

English

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent work treats this as multi-turn reinforcement learning (RL), conventional approaches optimize over the multi-step trajectories directly, failing to further exploit the high-quality mistakes in intermediate steps that model can learn from correcting them. We propose a two-stage iterative framework that alternates between online data/prompt augmentation and policy optimization. By converting the intermediate steps (``near-miss'' answers) in the successful recovery trajectories into decoupled revision and verification prompts, our approach concentrates training on both effective answer transformation and error identification. This approach enables efficient off-policy data generation and reduces the computational overhead of long-horizon sampling compared to standard multi-turn RL. On LiveCodeBench, using publicly available test cases as feedback, we observe gains of +6.5 points over the RL baseline and +4.0 points over standard multi-turn training. Beyond coding, our approach matches the previously reported SOTA result on circle packing while using the smallest base model (4B) and far fewer rollouts than the much larger evolutionary search systems. Math results under ground-truth verification further confirm improved correction ability. It also generalizes to out-of-distribution constraint-satisfaction puzzles such as n\_queens and mini\_sudoku, where correctness is defined entirely by problem constraints. Code is available at https://github.com/yxliu02/REVES.git.