LLaDA-V: Modelos de Difusão de Linguagem de Grande Escala com Ajuste Visual por Instrução
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
May 22, 2025
Autores: Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li
cs.AI
Resumo
Neste trabalho, apresentamos o LLaDA-V, um Modelo de Linguagem Multimodal (MLLM) baseado exclusivamente em difusão que integra ajuste fino de instruções visuais com modelos de difusão mascarados, representando uma divergência dos paradigmas autoregressivos dominantes nas abordagens multimodais atuais. Construído sobre o LLaDA, um modelo representativo de difusão de linguagem de grande escala, o LLaDA-V incorpora um codificador visual e um conector MLP que projeta características visuais no espaço de incorporação de linguagem, permitindo um alinhamento multimodal eficaz. Nossa investigação empírica revela vários resultados intrigantes: Primeiro, o LLaDA-V demonstra um desempenho multimodal promissor, apesar de seu modelo de linguagem ser mais fraco em tarefas puramente textuais em comparação com contrapartes como o LLaMA3-8B e o Qwen2-7B. Quando treinado com os mesmos dados de instrução, o LLaDA-V é altamente competitivo em relação ao LLaMA3-V em tarefas multimodais, com melhor escalabilidade de dados. Ele também reduz a lacuna de desempenho em relação ao Qwen2-VL, sugerindo a eficácia de sua arquitetura para tarefas multimodais. Segundo, o LLaDA-V alcança desempenho de ponta em compreensão multimodal em comparação com os MLLMs híbridos autoregressivos-difusão e baseados exclusivamente em difusão existentes. Nossas descobertas sugerem que os modelos de difusão de linguagem de grande escala mostram potencial em contextos multimodais e merecem investigação adicional em pesquisas futuras. Página do projeto e códigos: https://ml-gsai.github.io/LLaDA-V-demo/.
English
In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large
Language Model (MLLM) that integrates visual instruction tuning with masked
diffusion models, representing a departure from the autoregressive paradigms
dominant in current multimodal approaches. Built upon LLaDA, a representative
large language diffusion model, LLaDA-V incorporates a vision encoder and MLP
connector that projects visual features into the language embedding space,
enabling effective multimodal alignment. Our empirical investigation reveals
several intriguing results: First, LLaDA-V demonstrates promising multimodal
performance despite its language model being weaker on purely textual tasks
than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same
instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal
tasks with better data scalability. It also narrows the performance gap to
Qwen2-VL, suggesting the effectiveness of its architecture for multimodal
tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal
understanding compared to existing hybrid autoregressive-diffusion and purely
diffusion-based MLLMs. Our findings suggest that large language diffusion
models show promise in multimodal contexts and warrant further investigation in
future research. Project page and codes:
https://ml-gsai.github.io/LLaDA-V-demo/.