Modelos de Lenguaje Esotéricos
Esoteric Language Models
June 2, 2025
Autores: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
Resumen
Los modelos de lenguaje basados en difusión ofrecen una alternativa convincente a los modelos autoregresivos (AR) al permitir una generación paralela y controlable. Dentro de esta familia de modelos, los Modelos de Difusión Enmascarada (MDMs) logran el mejor rendimiento, pero aún se desempeñan peor que los modelos AR en términos de perplejidad y carecen de características clave de eficiencia en la inferencia, especialmente el almacenamiento en caché de KV (KV caching). En este trabajo, presentamos Eso-LMs, una nueva familia de modelos que fusiona los paradigmas AR y MDM, permitiendo una interpolación suave entre sus niveles de perplejidad mientras supera sus respectivas limitaciones. Eso-LMs establecen un nuevo estado del arte en benchmarks estándar de modelado de lenguaje. De manera crucial, somos los **primeros en introducir el almacenamiento en caché de KV para MDMs** mientras preservamos la generación paralela, mejorando significativamente la eficiencia en la inferencia. Combinado con un esquema de muestreo optimizado, nuestro método logra una inferencia hasta **65 veces** más rápida que los MDMs estándar y **4 veces** más rápida que enfoques semi-autoregresivos previos. Proporcionamos el código y los puntos de control del modelo en la página del proyecto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)