ChatPaper.aiChatPaper

ReFusion : Un grand modèle linguistique de diffusion avec décodage autorégressif parallèle

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

December 15, 2025
papers.authors: Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li
cs.AI

papers.abstract

Les modèles autorégressifs (ARM) sont entravés par une inférence séquentielle lente. Bien que les modèles de diffusion masquée (MDM) offrent une alternative parallèle, ils souffrent d'inconvénients majeurs : une surcharge computationnelle élevée due à l'impossibilité de mettre en cache les paires Clé-Valeur (KV), et une génération incohérente résultant de l'apprentissage de dépendances sur un espace intraitable de combinaisons de tokens. Pour résoudre ces limitations, nous présentons ReFusion, un nouveau modèle de diffusion masquée qui atteint une performance et une efficacité supérieures en élevant le décodage parallèle du niveau token à un niveau slot supérieur, où chaque slot est une sous-séquence contiguë de longueur fixe. Ceci est réalisé via un processus de décodage itératif « planifier-et-remplir » : une étape de planification basée sur la diffusion identifie d'abord un ensemble de slots faiblement dépendants, puis une étape de remplissage autorégressive décode ces slots sélectionnés en parallèle. La conception basée sur les slots permet simultanément la réutilisation complète du cache KV avec un cadre causal unifié et réduit la complexité d'apprentissage de l'espace des combinaisons de tokens à un espace de permutations au niveau des slots gérable. Des expériences approfondies sur sept benchmarks divers montrent que ReFusion surpasse non seulement massivement les MDM antérieurs avec des gains de performance de 34 % et une accélération moyenne de plus de 18 fois, mais comble également l'écart de performance avec les ARM robustes tout en maintenant une accélération moyenne de 2,33 fois.
English
Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18times speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33times average speedup.
PDF814December 17, 2025