Dimple: Modello Multimodale di Grande Linguaggio con Diffusione Discreta e Decodifica Parallela

Abstract

In questo lavoro, proponiamo Dimple, il primo Modello Linguistico Multimodale a Diffusione Discreta (DMLLM). Osserviamo che l'addestramento con un approccio puramente discreto di diffusione porta a una significativa instabilità durante il training, prestazioni subottimali e gravi problemi di bias nella lunghezza. Per affrontare queste sfide, progettiamo un nuovo paradigma di addestramento che combina una fase iniziale autoregressiva con una successiva fase di diffusione. Questo approccio dà vita al modello Dimple-7B, addestrato sullo stesso dataset e utilizzando una pipeline di training simile a quella di LLaVA-NEXT. Dimple-7B supera infine LLaVA-NEXT in termini di prestazioni del 3,9%, dimostrando che il DMLLM può raggiungere prestazioni paragonabili a quelle dei modelli autoregressivi. Per migliorare l'efficienza durante l'inferenza, proponiamo una strategia di decodifica denominata confident decoding, che regola dinamicamente il numero di token generati a ogni passo, riducendo significativamente il numero di iterazioni di generazione. Nei modelli autoregressivi, il numero di iterazioni in avanti durante la generazione è uguale alla lunghezza della risposta. Con il confident decoding, tuttavia, il numero di iterazioni necessarie per Dimple è pari a solo text{lunghezza della risposta}{3}. Reimplementiamo inoltre la tecnica di prefilling nei modelli autoregressivi e dimostriamo che non influisce significativamente sulle prestazioni nella maggior parte delle valutazioni benchmark, offrendo un'accelerazione da 1,5x a 7x. Inoltre, esploriamo la capacità di Dimple di controllare con precisione la sua risposta utilizzando prior strutturali. Questi prior consentono risposte strutturate in modo diverso rispetto ai prompt basati su istruzioni o su catene di pensiero e permettono un controllo fine sulla formattazione e sulla lunghezza della risposta, cosa difficile da ottenere nei modelli autoregressivi. Nel complesso, questo lavoro valida la fattibilità e i vantaggi del DMLLM e ne migliora l'efficienza inferenziale e la controllabilità. Codice e modelli sono disponibili su https://github.com/yu-rp/Dimple.

English

In this work, we propose Dimple, the first Discrete Diffusion Multimodal Large Language Model (DMLLM). We observe that training with a purely discrete diffusion approach leads to significant training instability, suboptimal performance, and severe length bias issues. To address these challenges, we design a novel training paradigm that combines an initial autoregressive phase with a subsequent diffusion phase. This approach yields the Dimple-7B model, trained on the same dataset and using a similar training pipeline as LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%, demonstrating that DMLLM can achieve performance comparable to that of autoregressive models. To improve inference efficiency, we propose a decoding strategy termed confident decoding, which dynamically adjusts the number of tokens generated at each step, significantly reducing the number of generation iterations. In autoregressive models, the number of forward iterations during generation equals the response length. With confident decoding, however, the number of iterations needed by Dimple is even only text{response length}{3}. We also re-implement the prefilling technique in autoregressive models and demonstrate that it does not significantly impact performance on most benchmark evaluations, while offering a speedup of 1.5x to 7x. Additionally, we explore Dimple's capability to precisely control its response using structure priors. These priors enable structured responses in a manner distinct from instruction-based or chain-of-thought prompting, and allow fine-grained control over response format and length, which is difficult to achieve in autoregressive models. Overall, this work validates the feasibility and advantages of DMLLM and enhances its inference efficiency and controllability. Code and models are available at https://github.com/yu-rp/Dimple.

Dimple: Modello Multimodale di Grande Linguaggio con Diffusione Discreta e Decodifica Parallela

Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

Abstract

Support