Modelos de Lenguaje Autoregresivos Continuos

Resumen

La eficiencia de los grandes modelos de lenguaje (LLM) está fundamentalmente limitada por su proceso de generación secuencial, token por token. Sostenemos que superar este cuello de botella requiere un nuevo eje de diseño para el escalado de los LLM: aumentar el ancho de banda semántico de cada paso generativo. Con este fin, presentamos los Modelos de Lenguaje Autoregresivos Continuos (CALM), un cambio de paradigma que pasa de la predicción discreta del siguiente token a la predicción continua del siguiente vector. CALM utiliza un autocodificador de alta fidelidad para comprimir un fragmento de K tokens en un único vector continuo, a partir del cual los tokens originales pueden reconstruirse con una precisión superior al 99,9%. Esto nos permite modelar el lenguaje como una secuencia de vectores continuos en lugar de tokens discretos, lo que reduce el número de pasos generativos en un factor de K. El cambio de paradigma requiere un nuevo conjunto de herramientas de modelado; por lo tanto, desarrollamos un marco integral libre de verosimilitud que permite un entrenamiento robusto, una evaluación y un muestreo controlable en el dominio continuo. Los experimentos demuestran que CALM mejora significativamente la relación rendimiento-computación, logrando el rendimiento de sólidas líneas de base discretas con un coste computacional significativamente menor. Más importante aún, estos hallazgos establecen la predicción del siguiente vector como una vía potente y escalable hacia modelos de lenguaje ultraeficientes. Código: https://github.com/shaochenze/calm. Proyecto: https://shaochenze.github.io/blog/2025/CALM.

English

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each generative step. To this end, we introduce Continuous Autoregressive Language Models (CALM), a paradigm shift from discrete next-token prediction to continuous next-vector prediction. CALM uses a high-fidelity autoencoder to compress a chunk of K tokens into a single continuous vector, from which the original tokens can be reconstructed with over 99.9\% accuracy. This allows us to model language as a sequence of continuous vectors instead of discrete tokens, which reduces the number of generative steps by a factor of K. The paradigm shift necessitates a new modeling toolkit; therefore, we develop a comprehensive likelihood-free framework that enables robust training, evaluation, and controllable sampling in the continuous domain. Experiments show that CALM significantly improves the performance-compute trade-off, achieving the performance of strong discrete baselines at a significantly lower computational cost. More importantly, these findings establish next-vector prediction as a powerful and scalable pathway towards ultra-efficient language models. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.