ChatPaper.aiChatPaper

ReFusion: Un Modelo de Lenguaje Grande de Difusión con Decodificación Autoregresiva Paralela

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

December 15, 2025
Autores: Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li
cs.AI

Resumen

Los modelos autorregresivos (ARM) se ven limitados por su inferencia secuencial lenta. Si bien los modelos de difusión enmascarada (MDM) ofrecen una alternativa paralela, adolecen de desventajas críticas: alta sobrecarga computacional por impedir el almacenamiento en caché de claves-valores (KV), y generación incoherente derivada de aprender dependencias sobre un espacio intratable de combinaciones de tokens. Para abordar estas limitaciones, presentamos ReFusión, un novedoso modelo de difusión enmascarada que logra un rendimiento y eficiencia superiores al elevar la decodificación paralela del nivel de token a un nivel de *slot* superior, donde cada *slot* es una subsecuencia contigua de longitud fija. Esto se logra mediante un proceso de decodificación iterativo de "planificar y rellenar": un paso de planificación basado en difusión identifica primero un conjunto de *slots* débilmente dependientes, y luego un paso de rellenado autorregresivo decodifica estos *slots* seleccionados en paralelo. El diseño basado en *slots* desbloquea simultáneamente la reutilización completa de la caché KV con un marco causal unificado y reduce la complejidad del aprendizaje del espacio de combinaciones de tokens a un manejable espacio de permutaciones a nivel de *slot*. Experimentos exhaustivos en siete benchmarks diversos muestran que ReFusión no solo supera abrumadoramente a los MDM anteriores con ganancias de rendimiento del 34% y una aceleración promedio de más de 18 veces, sino que también salva la brecha de rendimiento con los ARM fuertes manteniendo una aceleración promedio de 2.33 veces.
English
Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18times speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33times average speedup.
PDF814December 17, 2025