LaViDa: Ein großes Diffusionssprachmodell für multimodales Verständnis
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
Autoren: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
Zusammenfassung
Moderne Vision-Language-Modelle (VLMs) können eine Vielzahl von Aufgaben lösen, die visuelles Denken erfordern. In realen Szenarien sind wünschenswerte Eigenschaften für VLMs schnelle Inferenz und kontrollierbare Generierung (z. B. die Beschränkung von Ausgaben auf ein gewünschtes Format). Allerdings haben bestehende autoregressive (AR) VLMs wie LLaVA in diesen Aspekten Schwierigkeiten. Diskrete Diffusionsmodelle (DMs) bieten eine vielversprechende Alternative, die parallele Dekodierung für schnellere Inferenz und bidirektionalen Kontext für kontrollierbare Generierung durch Text-Infilling ermöglicht. Während DMs in rein sprachlichen Umgebungen effektiv sind, ist ihr Potenzial für multimodale Aufgaben noch wenig erforscht. Wir stellen LaViDa vor, eine Familie von VLMs, die auf DMs basiert. Wir entwickeln LaViDa, indem wir DMs mit einem Vision-Encoder ausstatten und die kombinierten Teile gemeinsam für multimodale Instruktionsbefolgung feinabstimmen. Um aufgetretene Herausforderungen zu bewältigen, integriert LaViDa neuartige Techniken wie komplementäres Masking für effektives Training, Prefix-KV-Cache für effiziente Inferenz und Timestep-Shifting für hochwertiges Sampling. Experimente zeigen, dass LaViDa auf multimodalen Benchmarks wie MMMU eine wettbewerbsfähige oder überlegene Leistung gegenüber AR-VLMs erzielt, während es die einzigartigen Vorteile von DMs bietet, darunter flexible Geschwindigkeits-Qualitäts-Abwägungen, Kontrollierbarkeit und bidirektionales Denken. Bei der COCO-Bildbeschriftung übertrifft LaViDa Open-LLaVa-Next-8B um +4,1 CIDEr bei einer 1,92-fachen Beschleunigung. Bei bidirektionalen Aufgaben erzielt es eine Verbesserung von +59 % bei der Constrained Poem Completion. Diese Ergebnisse zeigen LaViDa als eine starke Alternative zu AR-VLMs. Code und Modelle werden in der Kamera-ready-Version veröffentlicht.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.Summary
AI-Generated Summary