AlphaOne: Модели рассуждений, сочетающие медленное и быстрое мышление во время тестирования
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
May 30, 2025
Авторы: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI
Аннотация
В данной статье представлен AlphaOne (alpha1) — универсальный фреймворк для модуляции прогресса рассуждений в крупных моделях рассуждений (LRMs) во время тестирования. Alpha1 вводит понятие альфа-момента, который представляет масштабированную фазу мышления с использованием универсального параметра alpha. В рамках этой масштабированной фазы, предшествующей альфа-моменту, он динамически планирует переходы к медленному мышлению, моделируя вставку токенов переходов рассуждений как стохастический процесс Бернулли. После альфа-момента Alpha1 детерминированно завершает медленное мышление с помощью токена окончания мышления, тем самым способствуя быстрому рассуждению и эффективной генерации ответов. Этот подход объединяет и обобщает существующие методы монотонного масштабирования, обеспечивая гибкую и плотную модуляцию перехода от медленного к быстрому рассуждению. Обширные эмпирические исследования на различных сложных бенчмарках в математической, кодировочной и научной областях демонстрируют превосходные способности Alpha1 к рассуждениям и его эффективность. Страница проекта: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for
modulating reasoning progress in large reasoning models (LRMs) at test time.
alpha1 first introduces alpha moment, which represents the scaled
thinking phase with a universal parameter alpha. Within this scaled
pre-alpha moment phase, it dynamically schedules slow thinking transitions
by modeling the insertion of reasoning transition tokens as a Bernoulli
stochastic process. After the alpha moment, alpha1 deterministically
terminates slow thinking with the end-of-thinking token, thereby fostering fast
reasoning and efficient answer generation. This approach unifies and
generalizes existing monotonic scaling methods by enabling flexible and dense
slow-to-fast reasoning modulation. Extensive empirical studies on various
challenging benchmarks across mathematical, coding, and scientific domains
demonstrate alpha1's superior reasoning capability and efficiency. Project
page: https://alphaone-project.github.io/