LLaDA-V: Modelos de Difusión de Lenguaje a Gran Escala con Ajuste por Instrucción Visual
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
May 22, 2025
Autores: Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li
cs.AI
Resumen
En este trabajo, presentamos LLaDA-V, un Modelo de Lenguaje Multimodal (MLLM) basado exclusivamente en difusión que integra la sintonización de instrucciones visuales con modelos de difusión enmascarados, representando una desviación de los paradigmas autorregresivos dominantes en los enfoques multimodales actuales. Construido sobre LLaDA, un modelo representativo de difusión de lenguaje grande, LLaDA-V incorpora un codificador visual y un conector MLP que proyecta características visuales en el espacio de incrustación del lenguaje, permitiendo una alineación multimodal efectiva. Nuestra investigación empírica revela varios resultados intrigantes: En primer lugar, LLaDA-V demuestra un rendimiento multimodal prometedor a pesar de que su modelo de lenguaje es más débil en tareas puramente textuales en comparación con contrapartes como LLaMA3-8B y Qwen2-7B. Cuando se entrena con los mismos datos de instrucción, LLaDA-V es altamente competitivo con LLaMA3-V en tareas multimodales, mostrando una mejor escalabilidad de datos. También reduce la brecha de rendimiento con Qwen2-VL, sugiriendo la efectividad de su arquitectura para tareas multimodales. En segundo lugar, LLaDA-V logra un rendimiento de vanguardia en comprensión multimodal en comparación con los MLLM híbridos autorregresivos-difusión y los basados exclusivamente en difusión existentes. Nuestros hallazgos sugieren que los modelos de difusión de lenguaje grande muestran potencial en contextos multimodales y justifican una mayor investigación en futuros estudios. Página del proyecto y códigos: https://ml-gsai.github.io/LLaDA-V-demo/.
English
In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large
Language Model (MLLM) that integrates visual instruction tuning with masked
diffusion models, representing a departure from the autoregressive paradigms
dominant in current multimodal approaches. Built upon LLaDA, a representative
large language diffusion model, LLaDA-V incorporates a vision encoder and MLP
connector that projects visual features into the language embedding space,
enabling effective multimodal alignment. Our empirical investigation reveals
several intriguing results: First, LLaDA-V demonstrates promising multimodal
performance despite its language model being weaker on purely textual tasks
than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same
instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal
tasks with better data scalability. It also narrows the performance gap to
Qwen2-VL, suggesting the effectiveness of its architecture for multimodal
tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal
understanding compared to existing hybrid autoregressive-diffusion and purely
diffusion-based MLLMs. Our findings suggest that large language diffusion
models show promise in multimodal contexts and warrant further investigation in
future research. Project page and codes:
https://ml-gsai.github.io/LLaDA-V-demo/.Summary
AI-Generated Summary