Oltre le maschere rigide: evoluzione progressiva dei token per modelli linguistici basati su diffusione

Abstract

I modelli linguistici basati su diffusione (DLM) offrono un'alternativa promettente per la modellazione linguistica grazie alla possibilità di decodifica parallela tramite raffinamento iterativo. Tuttavia, la maggior parte dei DLM si basa su mascheramento binario rigido e assegnazioni discrete di token, che ostacolano la revisione delle decisioni iniziali e sottoutilizzano le rappresentazioni probabilistiche intermedie. In questo articolo proponiamo EvoToken-DLM, un innovativo approccio alla modellazione linguistica basato su diffusione che sostituisce le maschere binarie rigide con distribuzioni soft di token in evoluzione. EvoToken-DLM consente una transizione progressiva da stati mascherati a output discreti, supportando una decodifica revisionabile. Per supportare efficacemente questa evoluzione, introduciamo una supervisione continua della traiettoria, che allinea gli obiettivi di addestramento con gli aggiornamenti probabilistici iterativi. Esperimenti estesi su molteplici benchmark dimostrano che EvoToken-DLM raggiunge costantemente prestazioni superiori, superando i solidi baseline basati su diffusione e DLM mascherati. Pagina web del progetto: https://aim-uofa.github.io/EvoTokenDLM.

English

Diffusion Language Models (DLMs) offer a promising alternative for language modeling by enabling parallel decoding through iterative refinement. However, most DLMs rely on hard binary masking and discrete token assignments, which hinder the revision of early decisions and underutilize intermediate probabilistic representations. In this paper, we propose EvoToken-DLM, a novel diffusion-based language modeling approach that replaces hard binary masks with evolving soft token distributions. EvoToken-DLM enables a progressive transition from masked states to discrete outputs, supporting revisable decoding. To effectively support this evolution, we introduce continuous trajectory supervision, which aligns training objectives with iterative probabilistic updates. Extensive experiments across multiple benchmarks show that EvoToken-DLM consistently achieves superior performance, outperforming strong diffusion-based and masked DLM baselines. Project webpage: https://aim-uofa.github.io/EvoTokenDLM.

Oltre le maschere rigide: evoluzione progressiva dei token per modelli linguistici basati su diffusione

Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

Abstract

Support