Ricerca Guidata dal Valore per un Ragionamento a Catena di Pensiero Efficiente

Abstract

In questo articolo, proponiamo un metodo semplice ed efficiente per l'addestramento di modelli di valore su tracce di ragionamento a contesto lungo. Rispetto ai modelli di ricompensa basati sul processo (PRM) esistenti, il nostro metodo non richiede una nozione dettagliata di "passo", che è difficile da definire per i modelli di ragionamento a contesto lungo. Raccogliendo un dataset di 2,5 milioni di tracce di ragionamento, abbiamo addestrato un modello di valore a livello di token da 1,5 miliardi di parametri e lo abbiamo applicato ai modelli DeepSeek per migliorare le prestazioni con il ridimensionamento del calcolo in fase di test. Abbiamo scoperto che la ricerca guidata dal valore (VGS) a blocchi con un voto a maggioranza ponderato finale ottiene un ridimensionamento migliore in fase di test rispetto ai metodi standard come il voto a maggioranza o il best-of-n. Con un budget di inferenza di 64 generazioni, il VGS con DeepSeek-R1-Distill-1.5B raggiunge un'accuratezza media del 45,7% su quattro benchmark di matematica competitiva (AIME 2024 & 2025, HMMT Feb 2024 & 2025), raggiungendo la parità con o3-mini-medium. Inoltre, il VGS riduce significativamente i FLOP di inferenza necessari per ottenere le stesse prestazioni del voto a maggioranza. Il nostro dataset, modello e codice sono open-source.

English

In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.

Ricerca Guidata dal Valore per un Ragionamento a Catena di Pensiero Efficiente

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Abstract

Support