Dimple: Modello Multimodale di Grande Linguaggio con Diffusione Discreta e Decodifica Parallela
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding
May 22, 2025
Autori: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI
Abstract
In questo lavoro, proponiamo Dimple, il primo Modello Linguistico Multimodale a Diffusione Discreta (DMLLM). Osserviamo che l'addestramento con un approccio puramente discreto di diffusione porta a una significativa instabilità durante il training, prestazioni subottimali e gravi problemi di bias nella lunghezza. Per affrontare queste sfide, progettiamo un nuovo paradigma di addestramento che combina una fase iniziale autoregressiva con una successiva fase di diffusione. Questo approccio dà vita al modello Dimple-7B, addestrato sullo stesso dataset e utilizzando una pipeline di training simile a quella di LLaVA-NEXT. Dimple-7B supera infine LLaVA-NEXT in termini di prestazioni del 3,9%, dimostrando che il DMLLM può raggiungere prestazioni paragonabili a quelle dei modelli autoregressivi. Per migliorare l'efficienza durante l'inferenza, proponiamo una strategia di decodifica denominata confident decoding, che regola dinamicamente il numero di token generati a ogni passo, riducendo significativamente il numero di iterazioni di generazione. Nei modelli autoregressivi, il numero di iterazioni in avanti durante la generazione è uguale alla lunghezza della risposta. Con il confident decoding, tuttavia, il numero di iterazioni necessarie per Dimple è pari a solo text{lunghezza della risposta}{3}. Reimplementiamo inoltre la tecnica di prefilling nei modelli autoregressivi e dimostriamo che non influisce significativamente sulle prestazioni nella maggior parte delle valutazioni benchmark, offrendo un'accelerazione da 1,5x a 7x. Inoltre, esploriamo la capacità di Dimple di controllare con precisione la sua risposta utilizzando prior strutturali. Questi prior consentono risposte strutturate in modo diverso rispetto ai prompt basati su istruzioni o su catene di pensiero e permettono un controllo fine sulla formattazione e sulla lunghezza della risposta, cosa difficile da ottenere nei modelli autoregressivi. Nel complesso, questo lavoro valida la fattibilità e i vantaggi del DMLLM e ne migliora l'efficienza inferenziale e la controllabilità. Codice e modelli sono disponibili su https://github.com/yu-rp/Dimple.
English
In this work, we propose Dimple, the first Discrete Diffusion Multimodal
Large Language Model (DMLLM). We observe that training with a purely discrete
diffusion approach leads to significant training instability, suboptimal
performance, and severe length bias issues. To address these challenges, we
design a novel training paradigm that combines an initial autoregressive phase
with a subsequent diffusion phase. This approach yields the Dimple-7B model,
trained on the same dataset and using a similar training pipeline as
LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%,
demonstrating that DMLLM can achieve performance comparable to that of
autoregressive models. To improve inference efficiency, we propose a decoding
strategy termed confident decoding, which dynamically adjusts the number of
tokens generated at each step, significantly reducing the number of generation
iterations. In autoregressive models, the number of forward iterations during
generation equals the response length. With confident decoding, however, the
number of iterations needed by Dimple is even only text{response
length}{3}. We also re-implement the prefilling technique in autoregressive
models and demonstrate that it does not significantly impact performance on
most benchmark evaluations, while offering a speedup of 1.5x to 7x.
Additionally, we explore Dimple's capability to precisely control its response
using structure priors. These priors enable structured responses in a manner
distinct from instruction-based or chain-of-thought prompting, and allow
fine-grained control over response format and length, which is difficult to
achieve in autoregressive models. Overall, this work validates the feasibility
and advantages of DMLLM and enhances its inference efficiency and
controllability. Code and models are available at
https://github.com/yu-rp/Dimple.