DiffusionVL: Transformando Qualquer Modelo Autoregressivo em Modelos de Difusão para Visão e Linguagem

Resumo

Em pesquisas multimodais recentes, o paradigma de difusão emergiu como uma alternativa promissora ao paradigma autoregressivo (AR), devido às suas vantagens únicas de decodificação. No entanto, devido às limitações de capacidade do modelo de linguagem de difusão base, o desempenho do modelo de linguagem visual por difusão (dVLM) ainda permanece significativamente atrás dos modelos predominantes. Isso levanta uma questão simples, porém fundamental: Será possível construir dVLMs com base em modelos AR poderosos existentes? Em resposta, propomos o DiffusionVL, uma família de dVLMs que pode ser traduzida a partir de qualquer modelo AR potente. Por meio de um simples ajuste fino, adaptamos com sucesso modelos pré-treinados AR para o paradigma de difusão. Esta abordagem produz duas observações-chave: (1) A transição de paradigma de modelos multimodais baseados em AR para difusão é notavelmente eficaz. (2) A conversão direta de um modelo de linguagem AR para um dVLM também é viável, alcançando desempenho competitivo com o ajuste visual-instrucional estilo LLaVA. Adicionalmente, introduzimos um design de decodificação por blocos em dVLMs que suporta geração de comprimento arbitrário e reutilização de cache KV, alcançando uma aceleração significativa na inferência. Realizamos um grande número de experimentos. Apesar de treinar com menos de 5% dos dados exigidos por métodos anteriores, o DiffusionVL alcança uma melhoria abrangente de desempenho - um ganho de 34,4% no benchmark MMMU-Pro (visão) e 37,5% no benchmark MME (Cog.) - juntamente com uma aceleração de inferência de 2x. O modelo e o código estão disponíveis em https://github.com/hustvl/DiffusionVL.

English

In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.

DiffusionVL: Transformando Qualquer Modelo Autoregressivo em Modelos de Difusão para Visão e Linguagem

DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

Resumo

Support