LaViDa: 멀티모달 이해를 위한 대규모 확산 언어 모델
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
저자: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
초록
현대의 시각-언어 모델(VLMs)은 시각적 추론이 필요한 다양한 작업을 해결할 수 있습니다. 실제 시나리오에서 VLMs에 바람직한 특성으로는 빠른 추론과 제어 가능한 생성(예: 원하는 형식에 맞춰 출력을 제한하는 것)이 있습니다. 그러나 LLaVA와 같은 기존의 자기회귀적(AR) VLMs은 이러한 측면에서 어려움을 겪습니다. 이산 확산 모델(DMs)은 더 빠른 추론을 위한 병렬 디코딩과 텍스트 채우기를 통한 제어 가능한 생성을 위한 양방향 컨텍스트를 가능하게 하는 유망한 대안을 제공합니다. 언어 전용 설정에서는 효과적이지만, DMs의 다중 모달 작업에 대한 잠재력은 충분히 탐구되지 않았습니다. 우리는 DMs를 기반으로 구축된 VLMs 패밀리인 LaViDa를 소개합니다. LaViDa는 DMs에 비전 인코더를 장착하고 다중 모달 명령어 수행을 위해 결합된 부분을 공동으로 미세 조정하여 구축합니다. 직면한 문제를 해결하기 위해 LaViDa는 효과적인 학습을 위한 상호 보완적 마스킹, 효율적인 추론을 위한 접두사 KV 캐시, 고품질 샘플링을 위한 타임스텝 시프팅과 같은 새로운 기술을 통합합니다. 실험 결과, LaViDa는 MMMU와 같은 다중 모달 벤치마크에서 AR VLMs에 비해 경쟁력 있거나 우수한 성능을 달성하면서도 유연한 속도-품질 트레이드오프, 제어 가능성, 양방향 추론과 같은 DMs의 고유한 장점을 제공합니다. COCO 캡셔닝에서 LaViDa는 Open-LLaVa-Next-8B 대비 +4.1 CIDEr 점수를 달성하며 1.92배의 속도 향상을 보였습니다. 양방향 작업에서는 Constrained Poem Completion에서 +59%의 개선을 달성했습니다. 이러한 결과는 LaViDa가 AR VLMs의 강력한 대안임을 보여줍니다. 코드와 모델은 카메라 준비 버전에서 공개될 예정입니다.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.Summary
AI-Generated Summary