Jenseits von Festgelegt: Denoising mit variabler Länge für Diffusionsmodelle großer Sprachmodelle
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
August 1, 2025
papers.authors: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
cs.AI
papers.abstract
Diffusion Large Language Models (DLLMs) entwickeln sich als leistungsstarke Alternative zu den dominierenden Autoregressiven Large Language Models, die effiziente parallele Generierung und eine effektive Modellierung des globalen Kontexts ermöglichen. Die praktische Anwendung von DLLMs wird jedoch durch eine kritische architektonische Einschränkung behindert: die Notwendigkeit einer statisch vordefinierten Generierungslänge. Diese statische Längenzuweisung führt zu einem problematischen Kompromiss: unzureichende Längen beeinträchtigen die Leistung bei komplexen Aufgaben, während übermäßige Längen erheblichen Rechenaufwand verursachen und manchmal zu Leistungseinbußen führen. Obwohl das Inferenzframework starr ist, beobachten wir, dass das Modell selbst interne Signale besitzt, die mit der optimalen Antwortlänge für eine bestimmte Aufgabe korrelieren. Um diese Lücke zu schließen, nutzen wir diese latenten Signale und führen DAEDAL ein, eine neuartige trainingsfreie Denoising-Strategie, die eine dynamische adaptive Längenerweiterung für Diffusion Large Language Models ermöglicht. DAEDAL arbeitet in zwei Phasen: 1) Vor dem Denoising-Prozess beginnt DAEDAL mit einer kurzen Ausgangslänge und erweitert diese iterativ auf eine grobe, aufgabenangemessene Länge, geleitet durch ein Sequenzabschluss-Metrik. 2) Während des Denoising-Prozesses greift DAEDAL dynamisch ein, indem es unzureichende Generierungsbereiche durch das Einfügen von Mask-Tokens identifiziert und erweitert, um sicherzustellen, dass das endgültige Ergebnis vollständig entwickelt ist. Umfangreiche Experimente mit DLLMs zeigen, dass DAEDAL eine Leistung erzielt, die vergleichbar und in einigen Fällen sogar besser ist als sorgfältig abgestimmte feste Längen-Baselines, während gleichzeitig die Recheneffizienz durch einen höheren effektiven Token-Anteil verbessert wird. Durch die Auflösung der statischen Längenbeschränkung erschließt DAEDAL neues Potenzial für DLLMs, schließt eine kritische Lücke zu ihren autoregessiven Gegenstücken und ebnet den Weg für eine effizientere und leistungsfähigere Generierung.
English
Diffusion Large Language Models (DLLMs) are emerging as a powerful
alternative to the dominant Autoregressive Large Language Models, offering
efficient parallel generation and capable global context modeling. However, the
practical application of DLLMs is hindered by a critical architectural
constraint: the need for a statically predefined generation length. This static
length allocation leads to a problematic trade-off: insufficient lengths
cripple performance on complex tasks, while excessive lengths incur significant
computational overhead and sometimes result in performance degradation. While
the inference framework is rigid, we observe that the model itself possesses
internal signals that correlate with the optimal response length for a given
task. To bridge this gap, we leverage these latent signals and introduce
DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive
Length Expansion for Diffusion Large Language Models. DAEDAL operates in two
phases: 1) Before the denoising process, DAEDAL starts from a short initial
length and iteratively expands it to a coarse task-appropriate length, guided
by a sequence completion metric. 2) During the denoising process, DAEDAL
dynamically intervenes by pinpointing and expanding insufficient generation
regions through mask token insertion, ensuring the final output is fully
developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves
performance comparable, and in some cases superior, to meticulously tuned
fixed-length baselines, while simultaneously enhancing computational efficiency
by achieving a higher effective token ratio. By resolving the static length
constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap
with their Autoregressive counterparts and paving the way for more efficient
and capable generation.