AlphaOne: Redeneermodellen die langzaam en snel denken tijdens testtijd
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
May 30, 2025
Auteurs: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI
Samenvatting
Dit artikel introduceert AlphaOne (alpha1), een universeel raamwerk voor het moduleren van redeneervoortgang in grote redeneermodellen (LRMs) tijdens testtijd. alpha1 introduceert eerst het alpha-moment, dat de geschaalde denkfase vertegenwoordigt met een universele parameter alpha. Binnen deze geschaalde pre-alpha-momentfase plant het dynamisch langzaam denken overgangen door het invoegen van redeneerovergangstokens te modelleren als een Bernoulli stochastisch proces. Na het alpha-moment beëindigt alpha1 deterministisch het langzaam denken met het end-of-thinking token, waardoor snel denken en efficiënte antwoordgeneratie worden bevorderd. Deze aanpak verenigt en generaliseert bestaande monotone schalingsmethoden door flexibele en dichte modulatie van langzaam naar snel denken mogelijk te maken. Uitgebreide empirische studies op diverse uitdagende benchmarks in wiskundige, programmeer- en wetenschappelijke domeinen demonstreren de superieure redeneercapaciteit en efficiëntie van alpha1. Projectpagina: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for
modulating reasoning progress in large reasoning models (LRMs) at test time.
alpha1 first introduces alpha moment, which represents the scaled
thinking phase with a universal parameter alpha. Within this scaled
pre-alpha moment phase, it dynamically schedules slow thinking transitions
by modeling the insertion of reasoning transition tokens as a Bernoulli
stochastic process. After the alpha moment, alpha1 deterministically
terminates slow thinking with the end-of-thinking token, thereby fostering fast
reasoning and efficient answer generation. This approach unifies and
generalizes existing monotonic scaling methods by enabling flexible and dense
slow-to-fast reasoning modulation. Extensive empirical studies on various
challenging benchmarks across mathematical, coding, and scientific domains
demonstrate alpha1's superior reasoning capability and efficiency. Project
page: https://alphaone-project.github.io/