Эзотерические языковые модели

Аннотация

Диффузионные языковые модели представляют собой убедительную альтернативу авторегрессивным (AR) моделям, обеспечивая параллельную и контролируемую генерацию. Среди этого семейства моделей Маскированные Диффузионные Модели (MDMs) демонстрируют наилучшую производительность, но всё же уступают AR-моделям по перплексии и не обладают ключевыми функциями эффективности на этапе вывода, такими как кэширование ключей и значений (KV). В данной работе мы представляем Eso-LMs — новое семейство моделей, объединяющее подходы AR и MDM, что позволяет плавно интерполировать их перплексии, преодолевая при этом их ограничения. Eso-LMs устанавливают новый эталон на стандартных тестах языкового моделирования. Важно отметить, что мы **впервые внедряем KV-кэширование для MDMs**, сохраняя при этом возможность параллельной генерации, что значительно повышает эффективность вывода. В сочетании с оптимизированным графиком выборки наш метод обеспечивает до **65-кратного** ускорения вывода по сравнению с классическими MDMs и до **4-кратного** ускорения по сравнению с предыдущими полуавторегрессивными подходами. Код и контрольные точки модели доступны на странице проекта: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).

English

Diffusion-based language models offer a compelling alternative to autoregressive (AR) models by enabling parallel and controllable generation. Among this family of models, Masked Diffusion Models (MDMs) achieve the strongest performance but still underperform AR models in perplexity and lack key inference-time efficiency features--most notably, KV caching. In this work, we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms, enabling smooth interpolation between their perplexities while overcoming their respective limitations. Eso-LMs set a new state of the art on standard language modeling benchmarks. Crucially, we are the **first to introduce KV caching for MDMs** while preserving parallel generation, significantly improving inference efficiency. Combined with an optimized sampling schedule, our method achieves up to **65x** faster inference than standard MDMs and **4x** faster inference than prior semi-autoregressive approaches. We provide the code and model checkpoints on the project page: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)

Эзотерические языковые модели

Esoteric Language Models

Аннотация

Support