ChatPaper.aiChatPaper

Непрерывные авторегрессионные языковые модели

Continuous Autoregressive Language Models

October 31, 2025
Авторы: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI

Аннотация

Эффективность больших языковых моделей (LLM) фундаментально ограничена их последовательным, покмарным процессом генерации. Мы утверждаем, что для преодоления этого узкого места требуется новая ось масштабирования LLM: увеличение семантической пропускной способности каждого генеративного шага. С этой целью мы представляем Непрерывные Авторегрессионные Языковые Модели (CALM) — парадигмальный сдвиг от дискретного предсказания следующей марки к непрерывному предсказанию следующего вектора. CALM использует высокоточный автоэнкодер для сжатия блока из K маркеров в единый непрерывный вектор, из которого исходные маркеры могут быть восстановлены с точностью свыше 99,9%. Это позволяет нам моделировать язык как последовательность непрерывных векторов вместо дискретных маркеров, что сокращает количество генеративных шагов в K раз. Парадигмальный сдвиг требует нового инструментария моделирования; поэтому мы разработали комплексный framework, свободный от правдоподобия, который обеспечивает надежное обучение, оценку и управляемую семплирование в непрерывной области. Эксперименты показывают, что CALM значительно улучшает компромисс между производительностью и вычислениями, достигая производительности сильных дискретных базовых моделей при значительно более низких вычислительных затратах. Что более важно, эти результаты устанавливают предсказание следующего вектора как мощный и масштабируемый путь к созданию сверхэффективных языковых моделей. Код: https://github.com/shaochenze/calm. Проект: https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.
PDF682December 2, 2025