Modèles de langage autorégressifs continus
Continuous Autoregressive Language Models
October 31, 2025
papers.authors: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI
papers.abstract
L'efficacité des grands modèles de langage (LLM) est fondamentalement limitée par leur processus de génération séquentiel, token par token. Nous soutenons que pour surmonter ce goulot d'étranglement, il est nécessaire d'introduire un nouvel axe de conception pour la mise à l'échelle des LLM : l'augmentation de la bande passante sémantique à chaque étape générative. À cette fin, nous présentons les modèles de langage autorégressifs continus (CALM), un changement de paradigme qui passe de la prédiction discrète du token suivant à la prédiction continue du vecteur suivant. CALM utilise un autoencodeur à haute fidélité pour compresser un bloc de K tokens en un seul vecteur continu, à partir duquel les tokens originaux peuvent être reconstruits avec une précision supérieure à 99,9 %. Cela nous permet de modéliser le langage comme une séquence de vecteurs continus au lieu de tokens discrets, ce qui réduit le nombre d'étapes génératives d'un facteur K. Ce changement de paradigme nécessite une nouvelle boîte à outils de modélisation ; par conséquent, nous développons un cadre complet sans vraisemblance qui permet un entraînement robuste, une évaluation et un échantillonnage contrôlable dans le domaine continu. Les expériences montrent que CALM améliore significativement le compromis performance-calcul, atteignant les performances de modèles discrets de référence solides à un coût computationnel nettement inférieur. Plus important encore, ces résultats établissent la prédiction du vecteur suivant comme une voie puissante et évolutive vers des modèles de langage ultra-efficaces. Code : https://github.com/shaochenze/calm. Projet : https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by
their sequential, token-by-token generation process. We argue that overcoming
this bottleneck requires a new design axis for LLM scaling: increasing the
semantic bandwidth of each generative step. To this end, we introduce
Continuous Autoregressive Language Models (CALM), a paradigm shift from
discrete next-token prediction to continuous next-vector prediction. CALM uses
a high-fidelity autoencoder to compress a chunk of K tokens into a single
continuous vector, from which the original tokens can be reconstructed with
over 99.9\% accuracy. This allows us to model language as a sequence of
continuous vectors instead of discrete tokens, which reduces the number of
generative steps by a factor of K. The paradigm shift necessitates a new
modeling toolkit; therefore, we develop a comprehensive likelihood-free
framework that enables robust training, evaluation, and controllable sampling
in the continuous domain. Experiments show that CALM significantly improves the
performance-compute trade-off, achieving the performance of strong discrete
baselines at a significantly lower computational cost. More importantly, these
findings establish next-vector prediction as a powerful and scalable pathway
towards ultra-efficient language models. Code:
https://github.com/shaochenze/calm. Project:
https://shaochenze.github.io/blog/2025/CALM.