Busca Orientada por Valores para Raciocínio em Cadeia de Pensamento Eficiente
Value-Guided Search for Efficient Chain-of-Thought Reasoning
May 23, 2025
Autores: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI
Resumo
Neste artigo, propomos um método simples e eficiente para o treinamento de modelos de valor em traços de raciocínio de contexto longo. Em comparação com os modelos de recompensa de processo (PRMs) existentes, nosso método não requer uma noção detalhada de "etapa", que é difícil de definir para modelos de raciocínio de contexto longo. Ao coletar um conjunto de dados de 2,5 milhões de traços de raciocínio, treinamos um modelo de valor em nível de token de 1,5B e o aplicamos aos modelos DeepSeek para melhorar o desempenho com escalonamento de computação em tempo de teste. Descobrimos que a busca guiada por valor (VGS) em blocos com uma votação majoritária ponderada final alcança um escalonamento em tempo de teste melhor do que métodos padrão, como votação majoritária ou best-of-n. Com um orçamento de inferência de 64 gerações, o VGS com o DeepSeek-R1-Distill-1.5B alcança uma precisão média de 45,7% em quatro benchmarks de matemática competitiva (AIME 2024 & 2025, HMMT Fev 2024 & 2025), atingindo paridade com o o3-mini-medium. Além disso, o VGS reduz significativamente os FLOPs de inferência necessários para alcançar o mesmo desempenho da votação majoritária. Nosso conjunto de dados, modelo e base de código são de código aberto.
English
In this paper, we propose a simple and efficient method for value model
training on long-context reasoning traces. Compared to existing process reward
models (PRMs), our method does not require a fine-grained notion of "step,"
which is difficult to define for long-context reasoning models. By collecting a
dataset of 2.5 million reasoning traces, we train a 1.5B token-level value
model and apply it to DeepSeek models for improved performance with test-time
compute scaling. We find that block-wise value-guided search (VGS) with a final
weighted majority vote achieves better test-time scaling than standard methods
such as majority voting or best-of-n. With an inference budget of 64
generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of
45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024
& 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly
reduces the inference FLOPs required to achieve the same performance of
majority voting. Our dataset, model and codebase are open-sourced.