LLaDA-V: 시각적 명령어 튜닝을 통한 대규모 언어 확산 모델
LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
May 22, 2025
저자: Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, Chongxuan Li
cs.AI
초록
본 연구에서는 현재 다중모달 접근법에서 주류를 이루는 자기회귀적 패러다임에서 벗어나, 시각적 지시 튜닝과 마스크된 확산 모델을 통합한 순수 확산 기반 다중모달 대형 언어 모델(MLLM)인 LLaDA-V를 소개합니다. 대표적인 대형 언어 확산 모델인 LLaDA를 기반으로 구축된 LLaDA-V는 시각 인코더와 MLP 커넥터를 통합하여 시각적 특징을 언어 임베딩 공간으로 투영함으로써 효과적인 다중모달 정렬을 가능하게 합니다. 우리의 실험적 연구는 몇 가지 흥미로운 결과를 보여줍니다: 첫째, LLaDA-V는 순수 텍스트 작업에서는 LLaMA3-8B 및 Qwen2-7B와 같은 모델에 비해 언어 모델의 성능이 약함에도 불구하고 다중모달 작업에서 유망한 성능을 보입니다. 동일한 지시 데이터로 학습할 경우, LLaDA-V는 LLaMA3-V와 비교하여 다중모달 작업에서 높은 경쟁력을 보이며 더 나은 데이터 확장성을 보입니다. 또한 Qwen2-VL과의 성능 격차를 줄이는 것으로 보아, 다중모달 작업을 위한 LLaDA-V의 아키텍처가 효과적임을 시사합니다. 둘째, LLaDA-V는 기존의 하이브리드 자기회귀-확산 모델 및 순수 확산 기반 MLLM과 비교하여 다중모달 이해 작업에서 최첨단 성능을 달성합니다. 우리의 연구 결과는 대형 언어 확산 모델이 다중모달 맥락에서 유망하며, 향후 연구에서 더 깊이 탐구할 가치가 있음을 시사합니다. 프로젝트 페이지 및 코드: https://ml-gsai.github.io/LLaDA-V-demo/.
English
In this work, we introduce LLaDA-V, a purely diffusion-based Multimodal Large
Language Model (MLLM) that integrates visual instruction tuning with masked
diffusion models, representing a departure from the autoregressive paradigms
dominant in current multimodal approaches. Built upon LLaDA, a representative
large language diffusion model, LLaDA-V incorporates a vision encoder and MLP
connector that projects visual features into the language embedding space,
enabling effective multimodal alignment. Our empirical investigation reveals
several intriguing results: First, LLaDA-V demonstrates promising multimodal
performance despite its language model being weaker on purely textual tasks
than counterparts like LLaMA3-8B and Qwen2-7B. When trained on the same
instruction data, LLaDA-V is highly competitive to LLaMA3-V across multimodal
tasks with better data scalability. It also narrows the performance gap to
Qwen2-VL, suggesting the effectiveness of its architecture for multimodal
tasks. Second, LLaDA-V achieves state-of-the-art performance in multimodal
understanding compared to existing hybrid autoregressive-diffusion and purely
diffusion-based MLLMs. Our findings suggest that large language diffusion
models show promise in multimodal contexts and warrant further investigation in
future research. Project page and codes:
https://ml-gsai.github.io/LLaDA-V-demo/.Summary
AI-Generated Summary