ChatPaper.aiChatPaper

AlphaOne: Denkmodelle, die sowohl langsames als auch schnelles Denken zur Testzeit berücksichtigen

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30, 2025
Autoren: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI

Zusammenfassung

Dieses Paper stellt AlphaOne (alpha1) vor, einen universellen Rahmen zur Modulation des Fortschritts des Denkprozesses in großen Denkmodellen (Large Reasoning Models, LRMs) zur Testzeit. alpha1 führt zunächst den alpha-Moment ein, der die skalierte Denkphase mit einem universellen Parameter alpha repräsentiert. Innerhalb dieser skalierten Prä-alpha-Moment-Phase plant es dynamisch Übergänge zum langsamen Denken, indem es das Einfügen von Denkübergangs-Tokens als Bernoulli-stochastischen Prozess modelliert. Nach dem alpha-Moment beendet alpha1 das langsame Denken deterministisch mit dem End-of-Thinking-Token, wodurch schnelles Denken und effiziente Antwortgenerierung gefördert werden. Dieser Ansatz vereinheitlicht und verallgemeinert bestehende monotone Skalierungsmethoden, indem er eine flexible und dichte Modulation vom langsamen zum schnellen Denken ermöglicht. Umfangreiche empirische Studien auf verschiedenen anspruchsvollen Benchmarks in den Bereichen Mathematik, Programmierung und Wissenschaft demonstrieren die überlegene Denkfähigkeit und Effizienz von alpha1. Projektseite: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. alpha1 first introduces alpha moment, which represents the scaled thinking phase with a universal parameter alpha. Within this scaled pre-alpha moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the alpha moment, alpha1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate alpha1's superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
PDF882June 2, 2025