Recherche guidée par la valeur pour un raisonnement en chaîne de pensée efficace
Value-Guided Search for Efficient Chain-of-Thought Reasoning
May 23, 2025
Auteurs: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI
Résumé
Dans cet article, nous proposons une méthode simple et efficace pour l'entraînement de modèles de valeur sur des traces de raisonnement à contexte long. Contrairement aux modèles de récompense de processus (PRM) existants, notre méthode ne nécessite pas une notion fine de "étape", qui est difficile à définir pour les modèles de raisonnement à contexte long. En collectant un ensemble de données de 2,5 millions de traces de raisonnement, nous entraînons un modèle de valeur au niveau des tokens de 1,5 milliard de paramètres et l'appliquons aux modèles DeepSeek pour améliorer les performances avec une mise à l'échelle du calcul au moment du test. Nous constatons qu'une recherche guidée par la valeur (VGS) par blocs avec un vote majoritaire pondéré final permet une meilleure mise à l'échelle au moment du test que les méthodes standard telles que le vote majoritaire ou le best-of-n. Avec un budget d'inférence de 64 générations, VGS avec DeepSeek-R1-Distill-1.5B atteint une précision moyenne de 45,7 % sur quatre benchmarks de mathématiques compétitives (AIME 2024 & 2025, HMMT Fév 2024 & 2025), atteignant la parité avec o3-mini-medium. De plus, VGS réduit significativement les FLOPs d'inférence nécessaires pour atteindre la même performance que le vote majoritaire. Notre ensemble de données, modèle et codebase sont open-source.
English
In this paper, we propose a simple and efficient method for value model
training on long-context reasoning traces. Compared to existing process reward
models (PRMs), our method does not require a fine-grained notion of "step,"
which is difficult to define for long-context reasoning models. By collecting a
dataset of 2.5 million reasoning traces, we train a 1.5B token-level value
model and apply it to DeepSeek models for improved performance with test-time
compute scaling. We find that block-wise value-guided search (VGS) with a final
weighted majority vote achieves better test-time scaling than standard methods
such as majority voting or best-of-n. With an inference budget of 64
generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of
45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024
& 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly
reduces the inference FLOPs required to achieve the same performance of
majority voting. Our dataset, model and codebase are open-sourced.Summary
AI-Generated Summary