ChatPaper.aiChatPaper

Wertegeleitete Suche für effiziente Chain-of-Thought-Argumentation

Value-Guided Search for Efficient Chain-of-Thought Reasoning

May 23, 2025
Autoren: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI

Zusammenfassung

In diesem Artikel schlagen wir eine einfache und effiziente Methode für das Training von Wertmodellen auf langen Kontext-Rückschlussspuren vor. Im Vergleich zu bestehenden Prozess-Belohnungsmodellen (PRMs) erfordert unsere Methode keine feinkörnige Definition von „Schritt“, die bei langen Kontext-Rückschlussmodellen schwer zu definieren ist. Durch die Sammlung eines Datensatzes von 2,5 Millionen Rückschlussspuren trainieren wir ein Token-basiertes Wertmodell mit 1,5 Milliarden Parametern und wenden es auf DeepSeek-Modelle an, um die Leistung durch Skalierung der Rechenressourcen zur Testzeit zu verbessern. Wir stellen fest, dass die blockweise wertgeleitete Suche (VGS) mit einer abschließenden gewichteten Mehrheitsentscheidung eine bessere Skalierung zur Testzeit erreicht als Standardmethoden wie Mehrheitsentscheidung oder Best-of-n. Mit einem Inferenzbudget von 64 Generationen erreicht VGS mit DeepSeek-R1-Distill-1.5B eine durchschnittliche Genauigkeit von 45,7 % über vier Wettbewerbsmathematik-Benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025) und erreicht damit Parität mit o3-mini-medium. Darüber hinaus reduziert VGS die für die gleiche Leistung wie bei der Mehrheitsentscheidung erforderlichen Inferenz-FLOPs erheblich. Unser Datensatz, Modell und Codebase sind Open Source.
English
In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.

Summary

AI-Generated Summary

PDF42May 26, 2025