Kontinuierliche autoregressive Sprachmodelle

papers.abstract

Die Effizienz großer Sprachmodelle (LLMs) wird grundlegend durch ihren sequenziellen, Token-für-Token-Generierungsprozess begrenzt. Wir argumentieren, dass die Überwindung dieses Engpasses eine neue Gestaltungsdimension für die Skalierung von LLMs erfordert: die Erhöhung der semantischen Bandbreite jedes Generierungsschritts. Zu diesem Zweck führen wir Kontinuierlich Autoregressive Sprachmodelle (CALM) ein, einen Paradigmenwechsel von der diskreten nächsten Token-Vorhersage zur kontinuierlichen nächsten Vektor-Vorhersage. CALM verwendet einen Autoencoder mit hoher Wiedergabetreue, um einen Block von K Token in einen einzigen kontinuierlichen Vektor zu komprimieren, aus dem die ursprünglichen Token mit über 99,9 % Genauigkeit rekonstruiert werden können. Dies ermöglicht es uns, Sprache als eine Sequenz kontinuierlicher Vektoren anstelle diskreter Token zu modellieren, was die Anzahl der Generierungsschritte um den Faktor K reduziert. Der Paradigmenwechsel erfordert ein neues Modellierungswerkzeug; daher entwickeln wir einen umfassenden Likelihood-freien Rahmen, der robustes Training, Evaluation und kontrollierbare Stichprobenentnahme im kontinuierlichen Bereich ermöglicht. Experimente zeigen, dass CALM die Leistungs-Rechenaufwand-Abwägung signifikant verbessert und die Leistung starker diskreter Baseline-Modelle bei deutlich geringeren Rechenkosten erreicht. Noch wichtiger ist, dass diese Ergebnisse die nächste Vektor-Vorhersage als einen leistungsstarken und skalierbaren Weg zu ultra-effizienten Sprachmodellen etablieren. Code: https://github.com/shaochenze/calm. Projekt: https://shaochenze.github.io/blog/2025/CALM.

English

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.