ChatPaper.aiChatPaper

Modelos de Linguagem Esotéricos

Esoteric Language Models

June 2, 2025
Autores: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
cs.AI

Resumo

Modelos de linguagem baseados em difusão oferecem uma alternativa atraente aos modelos autoregressivos (AR) ao permitir geração paralela e controlável. Dentro dessa família de modelos, os Masked Diffusion Models (MDMs) alcançam o melhor desempenho, mas ainda ficam aquém dos modelos AR em termos de perplexidade e carecem de recursos essenciais de eficiência durante a inferência—notavelmente, o cache KV. Neste trabalho, introduzimos os Eso-LMs, uma nova família de modelos que combina os paradigmas AR e MDM, permitindo uma interpolação suave entre suas perplexidades enquanto supera suas respectivas limitações. Os Eso-LMs estabelecem um novo estado da arte em benchmarks padrão de modelagem de linguagem. Crucialmente, somos os **primeiros a introduzir o cache KV para MDMs** enquanto preservamos a geração paralela, melhorando significativamente a eficiência da inferência. Combinado com um esquema de amostragem otimizado, nosso método alcança inferências até **65x** mais rápidas do que os MDMs padrão e **4x** mais rápidas do que abordagens semi-autoregressivas anteriores. Disponibilizamos o código e os checkpoints dos modelos na página do projeto: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs).
English
Diffusion-based language models offer a compelling alternative to autoregressive (AR) models by enabling parallel and controllable generation. Among this family of models, Masked Diffusion Models (MDMs) achieve the strongest performance but still underperform AR models in perplexity and lack key inference-time efficiency features--most notably, KV caching. In this work, we introduce Eso-LMs, a new family of models that fuses AR and MDM paradigms, enabling smooth interpolation between their perplexities while overcoming their respective limitations. Eso-LMs set a new state of the art on standard language modeling benchmarks. Crucially, we are the **first to introduce KV caching for MDMs** while preserving parallel generation, significantly improving inference efficiency. Combined with an optimized sampling schedule, our method achieves up to **65x** faster inference than standard MDMs and **4x** faster inference than prior semi-autoregressive approaches. We provide the code and model checkpoints on the project page: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
PDF82June 3, 2025