ChatPaper.aiChatPaper

Эзотерические языковые модели

Esoteric Language Models

June 2, 2025
Авторы: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI

Аннотация

Диффузионные языковые модели представляют собой убедительную альтернативу авторегрессивным (AR) моделям, обеспечивая параллельную и контролируемую генерацию. Среди этого семейства моделей Маскированные Диффузионные Модели (MDMs) демонстрируют наилучшую производительность, но всё же уступают AR-моделям по перплексии и не обладают ключевыми функциями эффективности на этапе вывода, такими как кэширование ключей и значений (KV). В данной работе мы представляем Eso-LMs — новое семейство моделей, объединяющее подходы AR и MDM, что позволяет плавно интерполировать их перплексии, преодолевая при этом их ограничения. Eso-LMs устанавливают новый эталон на стандартных тестах языкового моделирования. Важно отметить, что мы **впервые внедряем KV-кэширование для MDMs**, сохраняя при этом возможность параллельной генерации, что значительно повышает эффективность вывода. В сочетании с оптимизированным графиком выборки наш метод обеспечивает до **65-кратного** ускорения вывода по сравнению с классическими MDMs и до **4-кратного** ускорения по сравнению с предыдущими полуавторегрессивными подходами. Код и контрольные точки модели доступны на странице проекта: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to autoregressive (AR) models by enabling parallel and controllable generation. Among this family of models, Masked Diffusion Models (MDMs) achieve the strongest performance but still underperform AR models in perplexity and lack key inference-time efficiency features--most notably, KV caching. In this work, we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms, enabling smooth interpolation between their perplexities while overcoming their respective limitations. Eso-LMs set a new state of the art on standard language modeling benchmarks. Crucially, we are the **first to introduce KV caching for MDMs** while preserving parallel generation, significantly improving inference efficiency. Combined with an optimized sampling schedule, our method achieves up to **65x** faster inference than standard MDMs and **4x** faster inference than prior semi-autoregressive approaches. We provide the code and model checkpoints on the project page: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
PDF72June 3, 2025