Continue Autoregressieve Taalmodelen
Continuous Autoregressive Language Models
October 31, 2025
Auteurs: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI
Samenvatting
De efficiëntie van grote taalmodellen (LLM's) wordt fundamenteel beperkt door hun sequentiële, token-voor-token generatieproces. Wij stellen dat het overwinnen van dit knelpunt een nieuwe ontwerp-as vereist voor de schaalvergroting van LLM's: het vergroten van de semantische bandbreedte van elke generatieve stap. Hiertoe introduceren we Continue Autoregressieve Taalmodellen (CALM), een paradigmaverschuiving van discrete volgende-tokenvoorspelling naar continue volgende-vectorvoorspelling. CALM gebruikt een auto-encoder met hoge nauwkeurigheid om een blok van K tokens te comprimeren tot een enkele continue vector, waaruit de originele tokens met een nauwkeurigheid van meer dan 99,9% gereconstrueerd kunnen worden. Hierdoor kunnen we taal modelleren als een reeks continue vectoren in plaats van discrete tokens, wat het aantal generatieve stappen met een factor K vermindert. De paradigmaverschuiving vereist een nieuwe modelleertoolkit; daarom ontwikkelen we een uitgebreid kader zonder kansberekening dat robuuste training, evaluatie en beheerbare steekproefname in het continue domein mogelijk maakt. Experimenten tonen aan dat CALM de prestatie-rekenkosten-verhouding aanzienlijk verbetert en de prestaties van sterke discrete basislijnen bereikt tegen aanzienlijk lagere rekenkosten. Belangrijker nog, deze bevindingen vestigen volgende-vectorvoorspelling als een krachtige en schaalbare weg naar ultra-efficiënte taalmodellen. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by
their sequential, token-by-token generation process. We argue that overcoming
this bottleneck requires a new design axis for LLM scaling: increasing the
semantic bandwidth of each generative step. To this end, we introduce
Continuous Autoregressive Language Models (CALM), a paradigm shift from
discrete next-token prediction to continuous next-vector prediction. CALM uses
a high-fidelity autoencoder to compress a chunk of K tokens into a single
continuous vector, from which the original tokens can be reconstructed with
over 99.9\% accuracy. This allows us to model language as a sequence of
continuous vectors instead of discrete tokens, which reduces the number of
generative steps by a factor of K. The paradigm shift necessitates a new
modeling toolkit; therefore, we develop a comprehensive likelihood-free
framework that enables robust training, evaluation, and controllable sampling
in the continuous domain. Experiments show that CALM significantly improves the
performance-compute trade-off, achieving the performance of strong discrete
baselines at a significantly lower computational cost. More importantly, these
findings establish next-vector prediction as a powerful and scalable pathway
towards ultra-efficient language models. Code:
https://github.com/shaochenze/calm. Project:
https://shaochenze.github.io/blog/2025/CALM.