Modelli linguistici autoregressivi continui
Continuous Autoregressive Language Models
October 31, 2025
Autori: Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
cs.AI
Abstract
L'efficienza dei grandi modelli linguistici (LLM) è fondamentalmente limitata dal loro processo di generazione sequenziale, token per token. Sosteniamo che per superare questo collo di bottiglia sia necessario un nuovo asse di progettazione per il scaling degli LLM: aumentare la larghezza di banda semantica di ogni passo generativo. A tal fine, introduciamo i Modelli Linguistici Autoregressivi Continui (CALM), un cambio di paradigma dalla previsione del token successivo discreta alla previsione del vettore successivo continuo. CALM utilizza un autoencoder ad alta fedeltà per comprimere un blocco di K token in un singolo vettore continuo, dal quale i token originali possono essere ricostruiti con un'accuratezza superiore al 99,9%. Ciò ci permette di modellare il linguaggio come una sequenza di vettori continui invece che di token discreti, riducendo il numero di passi generativi di un fattore K. Il cambio di paradigma richiede un nuovo toolkit di modellazione; pertanto, sviluppiamo un framework completo senza verosimiglianza (likelihood-free) che consente un addestramento robusto, una valutazione e un campionamento controllabile nel dominio continuo. Gli esperimenti mostrano che CALM migliora significativamente il compromesso prestazioni-calcolo, raggiungendo le prestazioni di solidi baseline discreti a un costo computazionale significativamente inferiore. Ancora più importante, questi risultati stabiliscono la previsione del vettore successivo come un percorso potente e scalabile verso modelli linguistici ultra-efficienti. Codice: https://github.com/shaochenze/calm. Progetto: https://shaochenze.github.io/blog/2025/CALM.
English
The efficiency of large language models (LLMs) is fundamentally limited by
their sequential, token-by-token generation process. We argue that overcoming
this bottleneck requires a new design axis for LLM scaling: increasing the
semantic bandwidth of each generative step. To this end, we introduce
Continuous Autoregressive Language Models (CALM), a paradigm shift from
discrete next-token prediction to continuous next-vector prediction. CALM uses
a high-fidelity autoencoder to compress a chunk of K tokens into a single
continuous vector, from which the original tokens can be reconstructed with
over 99.9\% accuracy. This allows us to model language as a sequence of
continuous vectors instead of discrete tokens, which reduces the number of
generative steps by a factor of K. The paradigm shift necessitates a new
modeling toolkit; therefore, we develop a comprehensive likelihood-free
framework that enables robust training, evaluation, and controllable sampling
in the continuous domain. Experiments show that CALM significantly improves the
performance-compute trade-off, achieving the performance of strong discrete
baselines at a significantly lower computational cost. More importantly, these
findings establish next-vector prediction as a powerful and scalable pathway
towards ultra-efficient language models. Code:
https://github.com/shaochenze/calm. Project:
https://shaochenze.github.io/blog/2025/CALM.