Modelos de Lenguaje Autoregresivos Continuos
Continuous Autoregressive Language Models
October 31, 2025
Autores: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI
Resumen
La eficiencia de los grandes modelos de lenguaje (LLM) está fundamentalmente limitada por su proceso de generación secuencial, token por token. Sostenemos que superar este cuello de botella requiere un nuevo eje de diseño para el escalado de los LLM: aumentar el ancho de banda semántico de cada paso generativo. Con este fin, presentamos los Modelos de Lenguaje Autoregresivos Continuos (CALM), un cambio de paradigma que pasa de la predicción discreta del siguiente token a la predicción continua del siguiente vector. CALM utiliza un autocodificador de alta fidelidad para comprimir un fragmento de K tokens en un único vector continuo, a partir del cual los tokens originales pueden reconstruirse con una precisión superior al 99,9%. Esto nos permite modelar el lenguaje como una secuencia de vectores continuos en lugar de tokens discretos, lo que reduce el número de pasos generativos en un factor de K. El cambio de paradigma requiere un nuevo conjunto de herramientas de modelado; por lo tanto, desarrollamos un marco integral libre de verosimilitud que permite un entrenamiento robusto, una evaluación y un muestreo controlable en el dominio continuo. Los experimentos demuestran que CALM mejora significativamente la relación rendimiento-computación, logrando el rendimiento de sólidas líneas de base discretas con un coste computacional significativamente menor. Más importante aún, estos hallazgos establecen la predicción del siguiente vector como una vía potente y escalable hacia modelos de lenguaje ultraeficientes. Código: https://github.com/shaochenze/calm. Proyecto: https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by
their sequential, token-by-token generation process. We argue that overcoming
this bottleneck requires a new design axis for LLM scaling: increasing the
semantic bandwidth of each generative step. To this end, we introduce
Continuous Autoregressive Language Models (CALM), a paradigm shift from
discrete next-token prediction to continuous next-vector prediction. CALM uses
a high-fidelity autoencoder to compress a chunk of K tokens into a single
continuous vector, from which the original tokens can be reconstructed with
over 99.9\% accuracy. This allows us to model language as a sequence of
continuous vectors instead of discrete tokens, which reduces the number of
generative steps by a factor of K. The paradigm shift necessitates a new
modeling toolkit; therefore, we develop a comprehensive likelihood-free
framework that enables robust training, evaluation, and controllable sampling
in the continuous domain. Experiments show that CALM significantly improves the
performance-compute trade-off, achieving the performance of strong discrete
baselines at a significantly lower computational cost. More importantly, these
findings establish next-vector prediction as a powerful and scalable pathway
towards ultra-efficient language models. Code:
https://github.com/shaochenze/calm. Project:
https://shaochenze.github.io/blog/2025/CALM.