Modèles de langage autorégressifs continus

papers.abstract

L'efficacité des grands modèles de langage (LLM) est fondamentalement limitée par leur processus de génération séquentiel, token par token. Nous soutenons que pour surmonter ce goulot d'étranglement, il est nécessaire d'introduire un nouvel axe de conception pour la mise à l'échelle des LLM : l'augmentation de la bande passante sémantique à chaque étape générative. À cette fin, nous présentons les modèles de langage autorégressifs continus (CALM), un changement de paradigme qui passe de la prédiction discrète du token suivant à la prédiction continue du vecteur suivant. CALM utilise un autoencodeur à haute fidélité pour compresser un bloc de K tokens en un seul vecteur continu, à partir duquel les tokens originaux peuvent être reconstruits avec une précision supérieure à 99,9 %. Cela nous permet de modéliser le langage comme une séquence de vecteurs continus au lieu de tokens discrets, ce qui réduit le nombre d'étapes génératives d'un facteur K. Ce changement de paradigme nécessite une nouvelle boîte à outils de modélisation ; par conséquent, nous développons un cadre complet sans vraisemblance qui permet un entraînement robuste, une évaluation et un échantillonnage contrôlable dans le domaine continu. Les expériences montrent que CALM améliore significativement le compromis performance-calcul, atteignant les performances de modèles discrets de référence solides à un coût computationnel nettement inférieur. Plus important encore, ces résultats établissent la prédiction du vecteur suivant comme une voie puissante et évolutive vers des modèles de langage ultra-efficaces. Code : https://github.com/shaochenze/calm. Projet : https://shaochenze.github.io/blog/2025/CALM.

English

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.