Além do Fixo: Desnudação de Comprimento Variável para Modelos de Linguagem de Grande Escala Baseados em Difusão
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
August 1, 2025
Autores: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala baseados em Difusão (DLLMs) estão surgindo como uma alternativa poderosa aos dominantes Modelos de Linguagem de Grande Escala Autoregressivos, oferecendo geração paralela eficiente e modelagem de contexto global robusta. No entanto, a aplicação prática dos DLLMs é limitada por uma restrição arquitetônica crítica: a necessidade de um comprimento de geração predefinido estaticamente. Essa alocação de comprimento estático resulta em um dilema problemático: comprimentos insuficientes prejudicam o desempenho em tarefas complexas, enquanto comprimentos excessivos geram sobrecarga computacional significativa e, às vezes, degradação de desempenho. Embora o framework de inferência seja rígido, observamos que o próprio modelo possui sinais internos que se correlacionam com o comprimento ideal de resposta para uma determinada tarefa. Para superar essa lacuna, aproveitamos esses sinais latentes e introduzimos o DAEDAL, uma nova estratégia de desruído livre de treinamento que permite a Expansão Dinâmica de Comprimento Adaptativo para Modelos de Linguagem de Grande Escala baseados em Difusão. O DAEDAL opera em duas fases: 1) Antes do processo de desruído, o DAEDAL começa com um comprimento inicial curto e o expande iterativamente para um comprimento aproximado adequado à tarefa, guiado por uma métrica de completude de sequência. 2) Durante o processo de desruído, o DAEDAL intervém dinamicamente ao identificar e expandir regiões de geração insuficientes por meio da inserção de tokens de máscara, garantindo que a saída final seja totalmente desenvolvida. Experimentos extensivos com DLLMs demonstram que o DAEDAL alcança desempenho comparável e, em alguns casos, superior a baselines de comprimento fixo meticulosamente ajustados, ao mesmo tempo em que melhora a eficiência computacional ao atingir uma taxa efetiva de tokens mais alta. Ao resolver a restrição de comprimento estático, o DAEDAL desbloqueia novo potencial para os DLLMs, preenchendo uma lacuna crítica em relação aos seus equivalentes Autoregressivos e abrindo caminho para uma geração mais eficiente e capaz.
English
Diffusion Large Language Models (DLLMs) are emerging as a powerful
alternative to the dominant Autoregressive Large Language Models, offering
efficient parallel generation and capable global context modeling. However, the
practical application of DLLMs is hindered by a critical architectural
constraint: the need for a statically predefined generation length. This static
length allocation leads to a problematic trade-off: insufficient lengths
cripple performance on complex tasks, while excessive lengths incur significant
computational overhead and sometimes result in performance degradation. While
the inference framework is rigid, we observe that the model itself possesses
internal signals that correlate with the optimal response length for a given
task. To bridge this gap, we leverage these latent signals and introduce
DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive
Length Expansion for Diffusion Large Language Models. DAEDAL operates in two
phases: 1) Before the denoising process, DAEDAL starts from a short initial
length and iteratively expands it to a coarse task-appropriate length, guided
by a sequence completion metric. 2) During the denoising process, DAEDAL
dynamically intervenes by pinpointing and expanding insufficient generation
regions through mask token insertion, ensuring the final output is fully
developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves
performance comparable, and in some cases superior, to meticulously tuned
fixed-length baselines, while simultaneously enhancing computational efficiency
by achieving a higher effective token ratio. By resolving the static length
constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap
with their Autoregressive counterparts and paving the way for more efficient
and capable generation.