에소테릭 언어 모델
Esoteric Language Models
June 2, 2025
저자: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI
초록
디퓨전 기반 언어 모델은 병렬 및 제어 가능한 생성을 가능하게 함으로써 자기회귀(AR) 모델에 대한 강력한 대안을 제공합니다. 이 모델군 중에서 마스크드 디퓨전 모델(MDM)은 가장 강력한 성능을 달성하지만, 여전히 AR 모델에 비해 복잡도(perplexity) 측면에서 뒤처지며, 특히 KV 캐싱과 같은 주요 추론 시간 효율성 기능이 부족합니다. 본 연구에서는 AR과 MDM 패러다임을 융합한 새로운 모델군인 Eso-LMs를 소개합니다. 이 모델은 각 패러다임의 한계를 극복하면서도 복잡도를 부드럽게 보간할 수 있습니다. Eso-LMs는 표준 언어 모델링 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히, 우리는 **MDM에 KV 캐싱을 도입한 최초의 연구**로서 병렬 생성을 유지하면서 추론 효율성을 크게 개선했습니다. 최적화된 샘플링 스케줄과 결합하여, 우리의 방법은 표준 MDM보다 최대 **65배**, 기존의 반-자기회귀 접근법보다 **4배** 더 빠른 추론 속도를 달성했습니다. 코드와 모델 체크포인트는 프로젝트 페이지에서 제공됩니다: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
English
Diffusion-based language models offer a compelling alternative to
autoregressive (AR) models by enabling parallel and controllable generation.
Among this family of models, Masked Diffusion Models (MDMs) achieve the
strongest performance but still underperform AR models in perplexity and lack
key inference-time efficiency features--most notably, KV caching. In this work,
we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms,
enabling smooth interpolation between their perplexities while overcoming their
respective limitations. Eso-LMs set a new state of the art on standard language
modeling benchmarks. Crucially, we are the **first to introduce KV caching for
MDMs** while preserving parallel generation, significantly improving inference
efficiency. Combined with an optimized sampling schedule, our method achieves
up to **65x** faster inference than standard MDMs and **4x** faster inference
than prior semi-autoregressive approaches. We provide the code and model
checkpoints on the project page:
[http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)