ChatPaper.aiChatPaper

Dimple: Modelo de Lenguaje Multimodal de Gran Escala con Difusión Discreta y Decodificación Paralela

Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

May 22, 2025
Autores: Runpeng Yu, Xinyin Ma, Xinchao Wang
cs.AI

Resumen

En este trabajo, proponemos Dimple, el primer Modelo de Lenguaje Multimodal con Difusión Discreta (DMLLM, por sus siglas en inglés). Observamos que el entrenamiento con un enfoque puramente de difusión discreta conduce a una inestabilidad significativa durante el entrenamiento, un rendimiento subóptimo y problemas graves de sesgo en la longitud. Para abordar estos desafíos, diseñamos un paradigma de entrenamiento novedoso que combina una fase inicial autoregresiva con una fase posterior de difusión. Este enfoque da como resultado el modelo Dimple-7B, entrenado en el mismo conjunto de datos y utilizando una canalización de entrenamiento similar a la de LLaVA-NEXT. Dimple-7B finalmente supera a LLaVA-NEXT en rendimiento en un 3.9%, demostrando que los DMLLM pueden alcanzar un rendimiento comparable al de los modelos autoregresivos. Para mejorar la eficiencia en la inferencia, proponemos una estrategia de decodificación denominada decodificación confiada, que ajusta dinámicamente el número de tokens generados en cada paso, reduciendo significativamente el número de iteraciones de generación. En los modelos autoregresivos, el número de iteraciones hacia adelante durante la generación es igual a la longitud de la respuesta. Sin embargo, con la decodificación confiada, el número de iteraciones necesarias para Dimple es incluso solo text{longitud de la respuesta}{3}. También reimplementamos la técnica de prefilling en modelos autoregresivos y demostramos que no afecta significativamente el rendimiento en la mayoría de las evaluaciones de referencia, mientras ofrece una aceleración de 1.5x a 7x. Además, exploramos la capacidad de Dimple para controlar con precisión su respuesta utilizando priores de estructura. Estos priores permiten respuestas estructuradas de una manera distinta a la basada en instrucciones o en el prompting de cadena de pensamiento, y permiten un control detallado sobre el formato y la longitud de la respuesta, algo difícil de lograr en modelos autoregresivos. En general, este trabajo valida la viabilidad y las ventajas de los DMLLM y mejora su eficiencia en la inferencia y su capacidad de control. El código y los modelos están disponibles en https://github.com/yu-rp/Dimple.
English
In this work, we propose Dimple, the first Discrete Diffusion Multimodal Large Language Model (DMLLM). We observe that training with a purely discrete diffusion approach leads to significant training instability, suboptimal performance, and severe length bias issues. To address these challenges, we design a novel training paradigm that combines an initial autoregressive phase with a subsequent diffusion phase. This approach yields the Dimple-7B model, trained on the same dataset and using a similar training pipeline as LLaVA-NEXT. Dimple-7B ultimately surpasses LLaVA-NEXT in performance by 3.9%, demonstrating that DMLLM can achieve performance comparable to that of autoregressive models. To improve inference efficiency, we propose a decoding strategy termed confident decoding, which dynamically adjusts the number of tokens generated at each step, significantly reducing the number of generation iterations. In autoregressive models, the number of forward iterations during generation equals the response length. With confident decoding, however, the number of iterations needed by Dimple is even only text{response length}{3}. We also re-implement the prefilling technique in autoregressive models and demonstrate that it does not significantly impact performance on most benchmark evaluations, while offering a speedup of 1.5x to 7x. Additionally, we explore Dimple's capability to precisely control its response using structure priors. These priors enable structured responses in a manner distinct from instruction-based or chain-of-thought prompting, and allow fine-grained control over response format and length, which is difficult to achieve in autoregressive models. Overall, this work validates the feasibility and advantages of DMLLM and enhances its inference efficiency and controllability. Code and models are available at https://github.com/yu-rp/Dimple.
PDF214May 23, 2025