AlphaOne : Modèles de raisonnement pensant lentement et rapidement au moment des tests
AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
May 30, 2025
Auteurs: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI
Résumé
Cet article présente AlphaOne (alpha1), un cadre universel pour moduler la progression du raisonnement dans les grands modèles de raisonnement (LRMs) lors de la phase de test. alpha1 introduit d'abord le concept de moment alpha, qui représente la phase de pensée mise à l'échelle avec un paramètre universel alpha. Au sein de cette phase pré-alpha moment mise à l'échelle, il planifie dynamiquement les transitions de pensée lente en modélisant l'insertion de jetons de transition de raisonnement comme un processus stochastique de Bernoulli. Après le moment alpha, alpha1 termine de manière déterministe la pensée lente avec le jeton de fin de pensée, favorisant ainsi un raisonnement rapide et une génération efficace de réponses. Cette approche unifie et généralise les méthodes existantes de mise à l'échelle monotone en permettant une modulation flexible et dense du passage d'un raisonnement lent à un raisonnement rapide. Des études empiriques approfondies sur divers benchmarks exigeants dans les domaines mathématiques, de programmation et scientifiques démontrent la capacité de raisonnement supérieure et l'efficacité d'alpha1. Page du projet : https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for
modulating reasoning progress in large reasoning models (LRMs) at test time.
alpha1 first introduces alpha moment, which represents the scaled
thinking phase with a universal parameter alpha. Within this scaled
pre-alpha moment phase, it dynamically schedules slow thinking transitions
by modeling the insertion of reasoning transition tokens as a Bernoulli
stochastic process. After the alpha moment, alpha1 deterministically
terminates slow thinking with the end-of-thinking token, thereby fostering fast
reasoning and efficient answer generation. This approach unifies and
generalizes existing monotonic scaling methods by enabling flexible and dense
slow-to-fast reasoning modulation. Extensive empirical studies on various
challenging benchmarks across mathematical, coding, and scientific domains
demonstrate alpha1's superior reasoning capability and efficiency. Project
page: https://alphaone-project.github.io/