Ценностно-ориентированный поиск для эффективного рассуждения с использованием цепочки мыслей
Value-Guided Search for Efficient Chain-of-Thought Reasoning
May 23, 2025
Авторы: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI
Аннотация
В данной статье мы предлагаем простой и эффективный метод обучения модели оценки на длинных контекстных траекториях рассуждений. В отличие от существующих моделей пошагового вознаграждения (PRMs), наш метод не требует детального определения понятия "шаг", которое сложно задать для моделей с длинным контекстом. Собрав набор данных из 2,5 миллионов траекторий рассуждений, мы обучили модель оценки на уровне токенов объемом 1,5 миллиарда параметров и применили её к моделям DeepSeek для улучшения производительности при масштабировании вычислений во время тестирования. Мы обнаружили, что поиск с блочным управлением на основе оценки (VGS) с финальным взвешенным большинством голосов обеспечивает лучшее масштабирование во время тестирования по сравнению с традиционными методами, такими как голосование большинством или выбор лучшего из n. При бюджете вывода в 64 генерации VGS с моделью DeepSeek-R1-Distill-1.5B достигает средней точности 45,7% на четырех бенчмарках по математическим соревнованиям (AIME 2024 & 2025, HMMT Feb 2024 & 2025), достигая уровня модели o3-mini-medium. Более того, VGS значительно сокращает количество операций с плавающей запятой (FLOPs), необходимых для достижения той же производительности, что и при голосовании большинством. Наш набор данных, модель и кодовая база находятся в открытом доступе.
English
In this paper, we propose a simple and efficient method for value model
training on long-context reasoning traces. Compared to existing process reward
models (PRMs), our method does not require a fine-grained notion of "step,"
which is difficult to define for long-context reasoning models. By collecting a
dataset of 2.5 million reasoning traces, we train a 1.5B token-level value
model and apply it to DeepSeek models for improved performance with test-time
compute scaling. We find that block-wise value-guided search (VGS) with a final
weighted majority vote achieves better test-time scaling than standard methods
such as majority voting or best-of-n. With an inference budget of 64
generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of
45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024
& 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly
reduces the inference FLOPs required to achieve the same performance of
majority voting. Our dataset, model and codebase are open-sourced.Summary
AI-Generated Summary