Modelli Linguistici Esoterici
Esoteric Language Models
June 2, 2025
Autori: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
Abstract
I modelli linguistici basati su diffusione offrono un'alternativa convincente ai modelli autoregressivi (AR) consentendo una generazione parallela e controllabile. All'interno di questa famiglia di modelli, i Masked Diffusion Models (MDM) raggiungono le prestazioni più elevate, ma continuano a essere inferiori ai modelli AR in termini di perplessità e mancano di funzionalità chiave per l'efficienza durante l'inferenza, in particolare la memorizzazione della cache KV. In questo lavoro, introduciamo Eso-LM, una nuova famiglia di modelli che fonde i paradigmi AR e MDM, consentendo un'interpolazione fluida tra le loro perplessità superando al contempo i rispettivi limiti. Gli Eso-LM stabiliscono un nuovo stato dell'arte nei benchmark standard di modellazione linguistica. Fondamentalmente, siamo i **primi a introdurre la cache KV per gli MDM** preservando la generazione parallela, migliorando significativamente l'efficienza dell'inferenza. Combinato con una pianificazione di campionamento ottimizzata, il nostro metodo raggiunge un'inferenza fino a **65 volte** più veloce rispetto agli MDM standard e **4 volte** più veloce rispetto agli approcci semi-autoregressivi precedenti. Forniamo il codice e i checkpoint del modello sulla pagina del progetto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)