Непрерывные авторегрессионные языковые модели

Аннотация

Эффективность больших языковых моделей (LLM) фундаментально ограничена их последовательным, покмарным процессом генерации. Мы утверждаем, что для преодоления этого узкого места требуется новая ось масштабирования LLM: увеличение семантической пропускной способности каждого генеративного шага. С этой целью мы представляем Непрерывные Авторегрессионные Языковые Модели (CALM) — парадигмальный сдвиг от дискретного предсказания следующей марки к непрерывному предсказанию следующего вектора. CALM использует высокоточный автоэнкодер для сжатия блока из K маркеров в единый непрерывный вектор, из которого исходные маркеры могут быть восстановлены с точностью свыше 99,9%. Это позволяет нам моделировать язык как последовательность непрерывных векторов вместо дискретных маркеров, что сокращает количество генеративных шагов в K раз. Парадигмальный сдвиг требует нового инструментария моделирования; поэтому мы разработали комплексный framework, свободный от правдоподобия, который обеспечивает надежное обучение, оценку и управляемую семплирование в непрерывной области. Эксперименты показывают, что CALM значительно улучшает компромисс между производительностью и вычислениями, достигая производительности сильных дискретных базовых моделей при значительно более низких вычислительных затратах. Что более важно, эти результаты устанавливают предсказание следующего вектора как мощный и масштабируемый путь к созданию сверхэффективных языковых моделей. Код: https://github.com/shaochenze/calm. Проект: https://shaochenze.github.io/blog/2025/CALM.

English

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.