Waarde-Gestuurd Zoeken voor Efficiënte Ketting-van-Gedachten Redenering
Value-Guided Search for Efficient Chain-of-Thought Reasoning
May 23, 2025
Auteurs: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI
Samenvatting
In dit artikel presenteren we een eenvoudige en efficiënte methode voor het trainen van waardemodellen op lange-context redeneersporen. In vergelijking met bestaande procesbeloningsmodellen (PRMs) vereist onze methode geen gedetailleerd begrip van "stap", wat moeilijk te definiëren is voor lange-context redeneermodellen. Door een dataset van 2,5 miljoen redeneersporen te verzamelen, trainen we een 1,5B token-niveau waardemodel en passen we dit toe op DeepSeek-modellen voor verbeterde prestaties met schaling van rekentijd tijdens testen. We ontdekken dat bloksgewijze waardegeleide zoektocht (VGS) met een gewogen meerderheidsstemming aan het einde betere schaling tijdens testen bereikt dan standaardmethoden zoals meerderheidsstemming of best-of-n. Met een inferentiebudget van 64 generaties bereikt VGS met DeepSeek-R1-Distill-1.5B een gemiddelde nauwkeurigheid van 45,7% over vier wiskundige benchmarkwedstrijden (AIME 2024 & 2025, HMMT feb 2024 & 2025), wat gelijk is aan o3-mini-medium. Bovendien vermindert VGS aanzienlijk de benodigde inferentie-FLOPs om dezelfde prestaties te bereiken als meerderheidsstemming. Onze dataset, model en codebase zijn open-source gemaakt.
English
In this paper, we propose a simple and efficient method for value model
training on long-context reasoning traces. Compared to existing process reward
models (PRMs), our method does not require a fine-grained notion of "step,"
which is difficult to define for long-context reasoning models. By collecting a
dataset of 2.5 million reasoning traces, we train a 1.5B token-level value
model and apply it to DeepSeek models for improved performance with test-time
compute scaling. We find that block-wise value-guided search (VGS) with a final
weighted majority vote achieves better test-time scaling than standard methods
such as majority voting or best-of-n. With an inference budget of 64
generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of
45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024
& 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly
reduces the inference FLOPs required to achieve the same performance of
majority voting. Our dataset, model and codebase are open-sourced.