Modèles de langage ésotériques
Esoteric Language Models
June 2, 2025
Auteurs: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
Résumé
Les modèles de langage basés sur la diffusion offrent une alternative convaincante aux modèles autorégressifs (AR) en permettant une génération parallèle et contrôlée. Parmi cette famille de modèles, les *Masked Diffusion Models* (MDMs) atteignent les performances les plus élevées, mais restent inférieurs aux modèles AR en termes de perplexité et manquent de fonctionnalités clés d'efficacité lors de l'inférence—notamment la mise en cache KV. Dans ce travail, nous introduisons les Eso-LMs, une nouvelle famille de modèles qui fusionne les paradigmes AR et MDM, permettant une interpolation fluide entre leurs perplexités tout en surmontant leurs limitations respectives. Les Eso-LMs établissent un nouvel état de l'art sur les benchmarks standards de modélisation du langage. De manière cruciale, nous sommes les **premiers à introduire la mise en cache KV pour les MDMs** tout en préservant la génération parallèle, améliorant ainsi significativement l'efficacité de l'inférence. Combinée à un plan d'échantillonnage optimisé, notre méthode permet une inférence jusqu'à **65 fois** plus rapide que les MDMs standards et **4 fois** plus rapide que les approches semi-autorégressives précédentes. Nous mettons à disposition le code et les points de contrôle des modèles sur la page du projet : [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)