Oltre il fisso: Denoising a lunghezza variabile per modelli linguistici di grandi dimensioni basati su diffusione
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
August 1, 2025
Autori: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
cs.AI
Abstract
I Modelli Linguistici di Grande Dimensione basati su Diffusione (DLLMs) stanno emergendo come una potente alternativa ai dominanti Modelli Linguistici di Grande Dimensione Autoregressivi, offrendo una generazione parallela efficiente e una capacità di modellazione del contesto globale. Tuttavia, l'applicazione pratica dei DLLMs è ostacolata da un vincolo architetturale critico: la necessità di una lunghezza di generazione predefinita staticamente. Questa allocazione statica della lunghezza porta a un compromesso problematico: lunghezze insufficienti compromettono le prestazioni su compiti complessi, mentre lunghezze eccessive comportano un significativo sovraccarico computazionale e talvolta un degrado delle prestazioni. Sebbene il framework di inferenza sia rigido, osserviamo che il modello stesso possiede segnali interni che correlano con la lunghezza ottimale della risposta per un determinato compito. Per colmare questa lacuna, sfruttiamo questi segnali latenti e introduciamo DAEDAL, una nuova strategia di denoising senza addestramento che abilita l'Espansione Dinamica Adattiva della Lunghezza per i Modelli Linguistici di Grande Dimensione basati su Diffusione. DAEDAL opera in due fasi: 1) Prima del processo di denoising, DAEDAL parte da una lunghezza iniziale breve e la espande iterativamente a una lunghezza approssimativa adeguata al compito, guidata da una metrica di completamento della sequenza. 2) Durante il processo di denoising, DAEDAL interviene dinamicamente individuando e espandendo le regioni di generazione insufficienti attraverso l'inserimento di token di maschera, assicurando che l'output finale sia completamente sviluppato. Esperimenti estesi sui DLLMs dimostrano che DAEDAL raggiunge prestazioni comparabili, e in alcuni casi superiori, a baseline a lunghezza fissa meticolosamente ottimizzate, migliorando simultaneamente l'efficienza computazionale attraverso un rapporto di token effettivo più elevato. Risolvendo il vincolo della lunghezza statica, DAEDAL sblocca nuovo potenziale per i DLLMs, colmando una lacuna critica rispetto alle loro controparti Autoregressive e aprendo la strada a una generazione più efficiente e capace.
English
Diffusion Large Language Models (DLLMs) are emerging as a powerful
alternative to the dominant Autoregressive Large Language Models, offering
efficient parallel generation and capable global context modeling. However, the
practical application of DLLMs is hindered by a critical architectural
constraint: the need for a statically predefined generation length. This static
length allocation leads to a problematic trade-off: insufficient lengths
cripple performance on complex tasks, while excessive lengths incur significant
computational overhead and sometimes result in performance degradation. While
the inference framework is rigid, we observe that the model itself possesses
internal signals that correlate with the optimal response length for a given
task. To bridge this gap, we leverage these latent signals and introduce
DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive
Length Expansion for Diffusion Large Language Models. DAEDAL operates in two
phases: 1) Before the denoising process, DAEDAL starts from a short initial
length and iteratively expands it to a coarse task-appropriate length, guided
by a sequence completion metric. 2) During the denoising process, DAEDAL
dynamically intervenes by pinpointing and expanding insufficient generation
regions through mask token insertion, ensuring the final output is fully
developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves
performance comparable, and in some cases superior, to meticulously tuned
fixed-length baselines, while simultaneously enhancing computational efficiency
by achieving a higher effective token ratio. By resolving the static length
constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap
with their Autoregressive counterparts and paving the way for more efficient
and capable generation.