ChatPaper.aiChatPaper

Modelli linguistici di diffusione mascherata semplici ed efficaci

Simple and Effective Masked Diffusion Language Models

June 11, 2024
Autori: Subham Sekhar Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, Volodymyr Kuleshov
cs.AI

Abstract

Sebbene i modelli di diffusione eccellano nella generazione di immagini di alta qualità, lavori precedenti riportano un significativo divario prestazionale tra i metodi di diffusione e quelli autoregressivi (AR) nel campo del language modeling. In questo lavoro, dimostriamo che una semplice diffusione discreta mascherata è più performante di quanto si pensasse in precedenza. Applichiamo una ricetta di addestramento efficace che migliora le prestazioni dei modelli di diffusione mascherata e deriviamo un obiettivo semplificato e Rao-Blackwellizzato che porta a ulteriori miglioramenti. Il nostro obiettivo ha una forma semplice — è una miscela di classiche perdite di language modeling mascherato — e può essere utilizzato per addestrare modelli linguistici basati esclusivamente su encoder che ammettono campionatori efficienti, inclusi quelli in grado di generare testi di lunghezza arbitraria in modo semi-autoregressivo, come un tradizionale modello linguistico. Su benchmark di language modeling, una gamma di modelli di diffusione mascherata addestrati con pratiche ingegneristiche moderne raggiunge un nuovo stato dell'arte tra i modelli di diffusione e si avvicina alla perplessità dei modelli AR. Rilasciamo il nostro codice all'indirizzo: https://github.com/kuleshov-group/mdlm
English
While diffusion models excel at generating high-quality images, prior work reports a significant performance gap between diffusion and autoregressive (AR) methods in language modeling. In this work, we show that simple masked discrete diffusion is more performant than previously thought. We apply an effective training recipe that improves the performance of masked diffusion models and derive a simplified, Rao-Blackwellized objective that results in additional improvements. Our objective has a simple form -- it is a mixture of classical masked language modeling losses -- and can be used to train encoder-only language models that admit efficient samplers, including ones that can generate arbitrary lengths of text semi-autoregressively like a traditional language model. On language modeling benchmarks, a range of masked diffusion models trained with modern engineering practices achieves a new state-of-the-art among diffusion models, and approaches AR perplexity. We release our code at: https://github.com/kuleshov-group/mdlm
PDF122February 8, 2026