Modelos de Linguagem Autoregressivos Contínuos
Continuous Autoregressive Language Models
October 31, 2025
Autores: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI
Resumo
A eficiência dos grandes modelos de linguagem (LLMs) é fundamentalmente limitada pelo seu processo sequencial de geração, token a token. Argumentamos que superar este gargalo exige um novo eixo de dimensionamento para LLMs: aumentar a largura de banda semântica de cada passo generativo. Para esse fim, introduzimos os *Continuous Autoregressive Language Models* (CALM), uma mudança de paradigma da previsão discreta do próximo token para a previsão contínua do próximo vetor. O CALM utiliza um autoencoder de alta fidelidade para comprimir um bloco de K tokens num único vetor contínuo, a partir do qual os tokens originais podem ser reconstruídos com mais de 99,9% de precisão. Isso permite-nos modelar a linguagem como uma sequência de vetores contínuos em vez de tokens discretos, o que reduz o número de passos generativos por um fator de K. A mudança de paradigma exige um novo conjunto de ferramentas de modelagem; portanto, desenvolvemos uma estrutura abrangente *likelihood-free* que permite um treino robusto, avaliação e amostragem controlável no domínio contínuo. Experiências mostram que o CALM melhora significativamente o compromisso desempenho-computação, alcançando o desempenho de fortes *baselines* discretas a um custo computacional significativamente menor. Mais importante ainda, estas descobertas estabelecem a previsão do próximo vetor como um caminho poderoso e escalável para modelos de linguagem ultra-eficientes. Código: https://github.com/shaochenze/calm. Projeto: https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by
their sequential, token-by-token generation process. We argue that overcoming
this bottleneck requires a new design axis for LLM scaling: increasing the
semantic bandwidth of each generative step. To this end, we introduce
Continuous Autoregressive Language Models (CALM), a paradigm shift from
discrete next-token prediction to continuous next-vector prediction. CALM uses
a high-fidelity autoencoder to compress a chunk of K tokens into a single
continuous vector, from which the original tokens can be reconstructed with
over 99.9\% accuracy. This allows us to model language as a sequence of
continuous vectors instead of discrete tokens, which reduces the number of
generative steps by a factor of K. The paradigm shift necessitates a new
modeling toolkit; therefore, we develop a comprehensive likelihood-free
framework that enables robust training, evaluation, and controllable sampling
in the continuous domain. Experiments show that CALM significantly improves the
performance-compute trade-off, achieving the performance of strong discrete
baselines at a significantly lower computational cost. More importantly, these
findings establish next-vector prediction as a powerful and scalable pathway
towards ultra-efficient language models. Code:
https://github.com/shaochenze/calm. Project:
https://shaochenze.github.io/blog/2025/CALM.