ChatPaper.aiChatPaper

AlphaOne: Modelos de Raciocínio Pensando Devagar e Rápido no Momento do Teste

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

May 30, 2025
Autores: Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
cs.AI

Resumo

Este artigo apresenta o AlphaOne (alpha1), um framework universal para modular o progresso do raciocínio em modelos de raciocínio de grande escala (LRMs) durante o teste. O alpha1 introduz inicialmente o conceito de momento alfa, que representa a fase de pensamento escalonada com um parâmetro universal alfa. Dentro dessa fase pré-momento alfa escalonada, ele agenda dinamicamente transições de pensamento lento modelando a inserção de tokens de transição de raciocínio como um processo estocástico de Bernoulli. Após o momento alfa, o alpha1 termina deterministicamente o pensamento lento com o token de fim-de-pensamento, promovendo assim o raciocínio rápido e a geração eficiente de respostas. Essa abordagem unifica e generaliza métodos existentes de escalonamento monotônico, permitindo uma modulação flexível e densa do raciocínio lento para rápido. Estudos empíricos extensos em diversos benchmarks desafiadores, abrangendo domínios matemáticos, de codificação e científicos, demonstram a capacidade superior de raciocínio e eficiência do alpha1. Página do projeto: https://alphaone-project.github.io/
English
This paper presents AlphaOne (alpha1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. alpha1 first introduces alpha moment, which represents the scaled thinking phase with a universal parameter alpha. Within this scaled pre-alpha moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the alpha moment, alpha1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate alpha1's superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/
PDF972June 2, 2025