ChatPaper.aiChatPaper

Busca Orientada por Valores para Raciocínio em Cadeia de Pensamento Eficiente

Value-Guided Search for Efficient Chain-of-Thought Reasoning

May 23, 2025
Autores: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI

Resumo

Neste artigo, propomos um método simples e eficiente para o treinamento de modelos de valor em traços de raciocínio de contexto longo. Em comparação com os modelos de recompensa de processo (PRMs) existentes, nosso método não requer uma noção detalhada de "etapa", que é difícil de definir para modelos de raciocínio de contexto longo. Ao coletar um conjunto de dados de 2,5 milhões de traços de raciocínio, treinamos um modelo de valor em nível de token de 1,5B e o aplicamos aos modelos DeepSeek para melhorar o desempenho com escalonamento de computação em tempo de teste. Descobrimos que a busca guiada por valor (VGS) em blocos com uma votação majoritária ponderada final alcança um escalonamento em tempo de teste melhor do que métodos padrão, como votação majoritária ou best-of-n. Com um orçamento de inferência de 64 gerações, o VGS com o DeepSeek-R1-Distill-1.5B alcança uma precisão média de 45,7% em quatro benchmarks de matemática competitiva (AIME 2024 & 2025, HMMT Fev 2024 & 2025), atingindo paridade com o o3-mini-medium. Além disso, o VGS reduz significativamente os FLOPs de inferência necessários para alcançar o mesmo desempenho da votação majoritária. Nosso conjunto de dados, modelo e base de código são de código aberto.
English
In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.
PDF52May 26, 2025