Ценностно-ориентированный поиск для эффективного рассуждения с использованием цепочки мыслей

Аннотация

В данной статье мы предлагаем простой и эффективный метод обучения модели оценки на длинных контекстных траекториях рассуждений. В отличие от существующих моделей пошагового вознаграждения (PRMs), наш метод не требует детального определения понятия "шаг", которое сложно задать для моделей с длинным контекстом. Собрав набор данных из 2,5 миллионов траекторий рассуждений, мы обучили модель оценки на уровне токенов объемом 1,5 миллиарда параметров и применили её к моделям DeepSeek для улучшения производительности при масштабировании вычислений во время тестирования. Мы обнаружили, что поиск с блочным управлением на основе оценки (VGS) с финальным взвешенным большинством голосов обеспечивает лучшее масштабирование во время тестирования по сравнению с традиционными методами, такими как голосование большинством или выбор лучшего из n. При бюджете вывода в 64 генерации VGS с моделью DeepSeek-R1-Distill-1.5B достигает средней точности 45,7% на четырех бенчмарках по математическим соревнованиям (AIME 2024 & 2025, HMMT Feb 2024 & 2025), достигая уровня модели o3-mini-medium. Более того, VGS значительно сокращает количество операций с плавающей запятой (FLOPs), необходимых для достижения той же производительности, что и при голосовании большинством. Наш набор данных, модель и кодовая база находятся в открытом доступе.

English

In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.

Ценностно-ориентированный поиск для эффективного рассуждения с использованием цепочки мыслей

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Аннотация

Support