Más allá de lo fijo: Desenmascarado de longitud variable para modelos de lenguaje extenso basados en difusión
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
August 1, 2025
Autores: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala basados en Difusión (DLLMs, por sus siglas en inglés) están surgiendo como una alternativa poderosa a los dominantes Modelos de Lenguaje de Gran Escala Autoregresivos, ofreciendo generación paralela eficiente y capacidad para modelar el contexto global. Sin embargo, la aplicación práctica de los DLLMs se ve obstaculizada por una limitación arquitectónica crítica: la necesidad de una longitud de generación predefinida estáticamente. Esta asignación estática de longitud conlleva un problema de equilibrio: longitudes insuficientes perjudican el rendimiento en tareas complejas, mientras que longitudes excesivas incurren en un sobrecosto computacional significativo y, en ocasiones, resultan en una degradación del rendimiento. Aunque el marco de inferencia es rígido, observamos que el modelo en sí posee señales internas que se correlacionan con la longitud óptima de respuesta para una tarea dada. Para cerrar esta brecha, aprovechamos estas señales latentes e introducimos DAEDAL, una novedosa estrategia de eliminación de ruido sin entrenamiento que permite la Expansión Dinámica de Longitud Adaptativa para los Modelos de Lenguaje de Gran Escala basados en Difusión. DAEDAL opera en dos fases: 1) Antes del proceso de eliminación de ruido, DAEDAL comienza con una longitud inicial corta y la expande iterativamente a una longitud aproximada adecuada para la tarea, guiada por una métrica de completitud de secuencia. 2) Durante el proceso de eliminación de ruido, DAEDAL interviene dinámicamente identificando y expandiendo las regiones de generación insuficientes mediante la inserción de tokens de máscara, asegurando que la salida final esté completamente desarrollada. Experimentos exhaustivos en DLLMs demuestran que DAEDAL logra un rendimiento comparable, y en algunos casos superior, a líneas base de longitud fija cuidadosamente ajustadas, mientras mejora simultáneamente la eficiencia computacional al alcanzar una mayor proporción efectiva de tokens. Al resolver la limitación de longitud estática, DAEDAL desbloquea un nuevo potencial para los DLLMs, cerrando una brecha crítica con sus contrapartes Autoregresivas y allanando el camino para una generación más eficiente y capaz.
English
Diffusion Large Language Models (DLLMs) are emerging as a powerful
alternative to the dominant Autoregressive Large Language Models, offering
efficient parallel generation and capable global context modeling. However, the
practical application of DLLMs is hindered by a critical architectural
constraint: the need for a statically predefined generation length. This static
length allocation leads to a problematic trade-off: insufficient lengths
cripple performance on complex tasks, while excessive lengths incur significant
computational overhead and sometimes result in performance degradation. While
the inference framework is rigid, we observe that the model itself possesses
internal signals that correlate with the optimal response length for a given
task. To bridge this gap, we leverage these latent signals and introduce
DAEDAL, a novel training-free denoising strategy that enables Dynamic Adaptive
Length Expansion for Diffusion Large Language Models. DAEDAL operates in two
phases: 1) Before the denoising process, DAEDAL starts from a short initial
length and iteratively expands it to a coarse task-appropriate length, guided
by a sequence completion metric. 2) During the denoising process, DAEDAL
dynamically intervenes by pinpointing and expanding insufficient generation
regions through mask token insertion, ensuring the final output is fully
developed. Extensive experiments on DLLMs demonstrate that DAEDAL achieves
performance comparable, and in some cases superior, to meticulously tuned
fixed-length baselines, while simultaneously enhancing computational efficiency
by achieving a higher effective token ratio. By resolving the static length
constraint, DAEDAL unlocks new potential for DLLMs, bridging a critical gap
with their Autoregressive counterparts and paving the way for more efficient
and capable generation.