ChatPaper.aiChatPaper

Esoterische Sprachmodelle

Esoteric Language Models

June 2, 2025
Autoren: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI

Zusammenfassung

Diffusionsbasierte Sprachmodelle bieten eine überzeugende Alternative zu autoregressiven (AR) Modellen, indem sie parallele und kontrollierbare Generierung ermöglichen. Innerhalb dieser Modellfamilie erzielen Masked Diffusion Models (MDMs) die stärkste Leistung, liegen jedoch in Bezug auf Perplexität immer noch hinter AR-Modellen zurück und verfügen nicht über wichtige Effizienzmerkmale zur Inferenzzeit – insbesondere KV-Caching. In dieser Arbeit stellen wir Eso-LMs vor, eine neue Modellfamilie, die AR- und MDM-Paradigmen vereint und eine nahtlose Interpolation zwischen ihren Perplexitäten ermöglicht, während sie gleichzeitig ihre jeweiligen Einschränkungen überwindet. Eso-LMs setzen einen neuen Maßstab auf Standard-Benchmarks für Sprachmodellierung. Entscheidend ist, dass wir **als erste KV-Caching für MDMs** einführen, während die parallele Generierung erhalten bleibt, was die Inferenzeffizienz erheblich verbessert. In Kombination mit einem optimierten Sampling-Zeitplan erreicht unsere Methode eine bis zu **65-fach** schnellere Inferenz als Standard-MDMs und eine **4-fach** schnellere Inferenz als bisherige semi-autoregressive Ansätze. Wir stellen den Code und die Modell-Checkpoints auf der Projektseite bereit: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to autoregressive (AR) models by enabling parallel and controllable generation. Among this family of models, Masked Diffusion Models (MDMs) achieve the strongest performance but still underperform AR models in perplexity and lack key inference-time efficiency features--most notably, KV caching. In this work, we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms, enabling smooth interpolation between their perplexities while overcoming their respective limitations. Eso-LMs set a new state of the art on standard language modeling benchmarks. Crucially, we are the **first to introduce KV caching for MDMs** while preserving parallel generation, significantly improving inference efficiency. Combined with an optimized sampling schedule, our method achieves up to **65x** faster inference than standard MDMs and **4x** faster inference than prior semi-autoregressive approaches. We provide the code and model checkpoints on the project page: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
PDF72June 3, 2025