REVES: REvisão e VErificação – Treinamento Aumentado para Escalonamento em Tempo de Teste

Resumo

A escalabilidade em tempo de teste por meio de revisão sequencial emergiu como um paradigma poderoso para aprimorar o raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, métodos padrão de pós-treinamento otimizam principalmente objetivos de etapa única, criando um desalinhamento fundamental com as dinâmicas de inferência de múltiplas etapas. Embora trabalhos recentes tratem isso como aprendizado por reforço (RL) de múltiplas interações, abordagens convencionais otimizam diretamente as trajetórias de múltiplas etapas, não conseguindo explorar ainda mais os erros de alta qualidade em etapas intermediárias que o modelo pode aprender ao corrigi-los. Propomos um framework iterativo de dois estágios que alterna entre aumento online de dados/prompts e otimização de política. Ao converter as etapas intermediárias (respostas "quase corretas") nas trajetórias de recuperação bem-sucedidas em prompts de revisão e verificação desacoplados, nossa abordagem concentra o treinamento tanto na transformação eficaz de respostas quanto na identificação de erros. Essa abordagem permite a geração eficiente de dados fora da política (off-policy) e reduz a sobrecarga computacional da amostragem de horizonte longo em comparação com RL padrão de múltiplas interações. No LiveCodeBench, usando casos de teste publicamente disponíveis como feedback, observamos ganhos de +6,5 pontos sobre a linha de base RL e +4,0 pontos sobre o treinamento padrão de múltiplas interações. Além da codificação, nossa abordagem corresponde ao resultado SOTA previamente relatado em empacotamento de círculos, utilizando o menor modelo base (4B) e muito menos execuções do que os sistemas de busca evolucionária muito maiores. Resultados matemáticos sob verificação com verdade fundamental confirmam ainda mais a capacidade de correção aprimorada. Também generaliza para quebra-cabeças de satisfação de restrições fora da distribuição, como n_rainhas e mini_sudoku, onde a correção é definida inteiramente pelas restrições do problema. O código está disponível em https://github.com/yxliu02/REVES.git.

English

Test-time scaling via sequential revision has emerged as a powerful paradigm for enhancing Large Language Model (LLM) reasoning. However, standard post-training methods primarily optimize single-shot objectives, creating a fundamental misalignment with multi-step inference dynamics. While recent work treats this as multi-turn reinforcement learning (RL), conventional approaches optimize over the multi-step trajectories directly, failing to further exploit the high-quality mistakes in intermediate steps that model can learn from correcting them. We propose a two-stage iterative framework that alternates between online data/prompt augmentation and policy optimization. By converting the intermediate steps (``near-miss'' answers) in the successful recovery trajectories into decoupled revision and verification prompts, our approach concentrates training on both effective answer transformation and error identification. This approach enables efficient off-policy data generation and reduces the computational overhead of long-horizon sampling compared to standard multi-turn RL. On LiveCodeBench, using publicly available test cases as feedback, we observe gains of +6.5 points over the RL baseline and +4.0 points over standard multi-turn training. Beyond coding, our approach matches the previously reported SOTA result on circle packing while using the smallest base model (4B) and far fewer rollouts than the much larger evolutionary search systems. Math results under ground-truth verification further confirm improved correction ability. It also generalizes to out-of-distribution constraint-satisfaction puzzles such as n\_queens and mini\_sudoku, where correctness is defined entirely by problem constraints. Code is available at https://github.com/yxliu02/REVES.git.