ChatPaper.aiChatPaper

AlphaOne: Modelos de razonamiento que piensan lento y rápido en el momento de la prueba

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30, 2025
Autores: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI

Resumen

Este artículo presenta AlphaOne (alpha1), un marco universal para modular el progreso del razonamiento en modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) durante la fase de prueba. Alpha1 introduce primero el concepto de momento alfa, que representa la fase de pensamiento escalada con un parámetro universal alfa. Dentro de esta fase pre-alfa escalada, programa dinámicamente las transiciones de pensamiento lento modelando la inserción de tokens de transición de razonamiento como un proceso estocástico de Bernoulli. Después del momento alfa, Alpha1 termina de manera determinista el pensamiento lento con el token de fin-de-pensamiento, fomentando así un razonamiento rápido y una generación eficiente de respuestas. Este enfoque unifica y generaliza los métodos de escalado monótono existentes al permitir una modulación flexible y densa del razonamiento de lento a rápido. Estudios empíricos exhaustivos en diversos puntos de referencia desafiantes en dominios matemáticos, de programación y científicos demuestran la capacidad superior de razonamiento y eficiencia de Alpha1. Página del proyecto: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. alpha1 first introduces alpha moment, which represents the scaled thinking phase with a universal parameter alpha. Within this scaled pre-alpha moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the alpha moment, alpha1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate alpha1's superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
PDF882June 2, 2025