За пределами фиксированных: денизинг переменной длины для диффузионных моделей больших языков
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
August 1, 2025
Авторы: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
cs.AI
Аннотация
Диффузионные модели больших языков (DLLMs) становятся мощной альтернативой доминирующим авторегрессивным моделям больших языков, предлагая эффективное параллельное генерирование и способность моделировать глобальный контекст. Однако практическое применение DLLM ограничивается критическим архитектурным ограничением: необходимостью статически предопределенной длины генерации. Такое статическое распределение длины приводит к проблематичному компромиссу: недостаточная длина снижает производительность на сложных задачах, а избыточная длина влечет значительные вычислительные затраты и иногда приводит к ухудшению производительности. Хотя структура вывода остается жесткой, мы наблюдаем, что сама модель обладает внутренними сигналами, коррелирующими с оптимальной длиной ответа для конкретной задачи. Чтобы устранить этот разрыв, мы используем эти скрытые сигналы и представляем DAEDAL — новую стратегию денизинга, не требующую обучения, которая обеспечивает динамическое адаптивное расширение длины для диффузионных моделей больших языков. DAEDAL работает в два этапа: 1) Перед процессом денизинга DAEDAL начинает с короткой начальной длины и итеративно расширяет ее до грубо подходящей для задачи длины, руководствуясь метрикой завершения последовательности. 2) В процессе денизинга DAEDAL динамически вмешивается, выявляя и расширяя недостаточные области генерации путем вставки маскирующих токенов, обеспечивая полное развитие конечного результата. Многочисленные эксперименты на DLLM демонстрируют, что DAEDAL достигает производительности, сопоставимой, а в некоторых случаях превосходящей тщательно настроенные базовые модели с фиксированной длиной, одновременно повышая вычислительную эффективность за счет достижения более высокого коэффициента эффективных токенов. Устраняя ограничение статической длины, DAEDAL раскрывает новый потенциал для DLLM, устраняя критический разрыв с их авторегрессивными аналогами и прокладывая путь к более эффективному и мощному генерированию.
English
Diffusion Large Language Models (DLLMs) are emerging as a powerful
alternative to the dominant Autoregressive Large Language Models, offering
efficient parallel generation and capable global context modeling. However, the
practical application of DLLMs is hindered by a critical architectural
constraint: the need for a statically predefined generation length. This static
length allocation leads to a problematic trade-off: insufficient lengths
cripple performance on complex tasks, while excessive lengths incur significant
computational overhead and sometimes result in performance degradation. While
the inference framework is rigid, we observe that the model itself possesses
internal signals that correlate with the optimal response length for a given
task. To bridge this gap, we leverage these latent signals and introduce
DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive
Length Expansion for Diffusion Large Language Models. DAEDAL operates in two
phases: 1) Before the denoising process, DAEDAL starts from a short initial
length and iteratively expands it to a coarse task-appropriate length, guided
by a sequence completion metric. 2) During the denoising process, DAEDAL
dynamically intervenes by pinpointing and expanding insufficient generation
regions through mask token insertion, ensuring the final output is fully
developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves
performance comparable, and in some cases superior, to meticulously tuned
fixed-length baselines, while simultaneously enhancing computational efficiency
by achieving a higher effective token ratio. By resolving the static length
constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap
with their Autoregressive counterparts and paving the way for more efficient
and capable generation.