AlphaOne: Modelli di Ragionamento che Pensano Lento e Veloce al Momento del Test
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
May 30, 2025
Autori: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI
Abstract
Questo articolo presenta AlphaOne (alpha1), un framework universale per modulare il progresso del ragionamento nei modelli di ragionamento su larga scala (LRM) durante il test. alpha1 introduce innanzitutto il concetto di alpha moment, che rappresenta la fase di pensiero scalata con un parametro universale alpha. All'interno di questa fase pre-alpha moment scalata, pianifica dinamicamente le transizioni del pensiero lento modellando l'inserimento di token di transizione del ragionamento come un processo stocastico di Bernoulli. Dopo l'alpha moment, alpha1 termina deterministicamente il pensiero lento con il token di fine-pensiero, favorendo così un ragionamento veloce e una generazione efficiente delle risposte. Questo approccio unifica e generalizza i metodi di scalatura monotona esistenti, consentendo una modulazione flessibile e densa del ragionamento da lento a veloce. Studi empirici estesi su vari benchmark impegnativi nei domini matematico, di programmazione e scientifico dimostrano la superiore capacità di ragionamento e l'efficienza di alpha1. Pagina del progetto: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for
modulating reasoning progress in large reasoning models (LRMs) at test time.
alpha1 first introduces alpha moment, which represents the scaled
thinking phase with a universal parameter alpha. Within this scaled
pre-alpha moment phase, it dynamically schedules slow thinking transitions
by modeling the insertion of reasoning transition tokens as a Bernoulli
stochastic process. After the alpha moment, alpha1 deterministically
terminates slow thinking with the end-of-thinking token, thereby fostering fast
reasoning and efficient answer generation. This approach unifies and
generalizes existing monotonic scaling methods by enabling flexible and dense
slow-to-fast reasoning modulation. Extensive empirical studies on various
challenging benchmarks across mathematical, coding, and scientific domains
demonstrate alpha1's superior reasoning capability and efficiency. Project
page: https://alphaone-project.github.io/