Эзотерические языковые модели
Esoteric Language Models
June 2, 2025
Авторы: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
Аннотация
Диффузионные языковые модели представляют собой убедительную альтернативу авторегрессивным (AR) моделям, обеспечивая параллельную и контролируемую генерацию. Среди этого семейства моделей Маскированные Диффузионные Модели (MDMs) демонстрируют наилучшую производительность, но всё же уступают AR-моделям по перплексии и не обладают ключевыми функциями эффективности на этапе вывода, такими как кэширование ключей и значений (KV). В данной работе мы представляем Eso-LMs — новое семейство моделей, объединяющее подходы AR и MDM, что позволяет плавно интерполировать их перплексии, преодолевая при этом их ограничения. Eso-LMs устанавливают новый эталон на стандартных тестах языкового моделирования. Важно отметить, что мы **впервые внедряем KV-кэширование для MDMs**, сохраняя при этом возможность параллельной генерации, что значительно повышает эффективность вывода. В сочетании с оптимизированным графиком выборки наш метод обеспечивает до **65-кратного** ускорения вывода по сравнению с классическими MDMs и до **4-кратного** ускорения по сравнению с предыдущими полуавторегрессивными подходами. Код и контрольные точки модели доступны на странице проекта: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)