ChatPaper.aiChatPaper

Ricerca Guidata dal Valore per un Ragionamento a Catena di Pensiero Efficiente

Value-Guided Search for Efficient Chain-of-Thought Reasoning

May 23, 2025
Autori: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI

Abstract

In questo articolo, proponiamo un metodo semplice ed efficiente per l'addestramento di modelli di valore su tracce di ragionamento a contesto lungo. Rispetto ai modelli di ricompensa basati sul processo (PRM) esistenti, il nostro metodo non richiede una nozione dettagliata di "passo", che è difficile da definire per i modelli di ragionamento a contesto lungo. Raccogliendo un dataset di 2,5 milioni di tracce di ragionamento, abbiamo addestrato un modello di valore a livello di token da 1,5 miliardi di parametri e lo abbiamo applicato ai modelli DeepSeek per migliorare le prestazioni con il ridimensionamento del calcolo in fase di test. Abbiamo scoperto che la ricerca guidata dal valore (VGS) a blocchi con un voto a maggioranza ponderato finale ottiene un ridimensionamento migliore in fase di test rispetto ai metodi standard come il voto a maggioranza o il best-of-n. Con un budget di inferenza di 64 generazioni, il VGS con DeepSeek-R1-Distill-1.5B raggiunge un'accuratezza media del 45,7% su quattro benchmark di matematica competitiva (AIME 2024 & 2025, HMMT Feb 2024 & 2025), raggiungendo la parità con o3-mini-medium. Inoltre, il VGS riduce significativamente i FLOP di inferenza necessari per ottenere le stesse prestazioni del voto a maggioranza. Il nostro dataset, modello e codice sono open-source.
English
In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.
PDF52May 26, 2025