LaViDa : Un grand modèle de langage à diffusion pour la compréhension multimodale
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
Auteurs: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
Résumé
Les modèles vision-langage modernes (VLMs) peuvent résoudre un large éventail de tâches nécessitant un raisonnement visuel. Dans des scénarios réels, les propriétés souhaitables pour les VLMs incluent une inférence rapide et une génération contrôlable (par exemple, contraindre les sorties à respecter un format souhaité). Cependant, les VLMs autorégressifs (AR) existants comme LLaVA peinent dans ces aspects. Les modèles de diffusion discrets (DMs) offrent une alternative prometteuse, permettant un décodage parallèle pour une inférence plus rapide et un contexte bidirectionnel pour une génération contrôlable via le remplissage de texte. Bien qu'efficaces dans des contextes uniquement linguistiques, le potentiel des DMs pour les tâches multimodales est sous-exploré. Nous présentons LaViDa, une famille de VLMs basée sur les DMs. Nous construisons LaViDa en équipant les DMs d'un encodeur visuel et en affinant conjointement les parties combinées pour le suivi d'instructions multimodales. Pour relever les défis rencontrés, LaViDa intègre des techniques novatrices telles que le masquage complémentaire pour un entraînement efficace, le cache KV de préfixe pour une inférence efficiente, et le décalage temporel pour un échantillonnage de haute qualité. Les expériences montrent que LaViDa atteint des performances compétitives ou supérieures aux VLMs AR sur des benchmarks multimodaux comme MMMU, tout en offrant les avantages uniques des DMs, y compris un compromis flexible vitesse-qualité, la contrôlabilité, et le raisonnement bidirectionnel. Sur la génération de légendes COCO, LaViDa surpasse Open-LLaVa-Next-8B de +4,1 CIDEr avec une accélération de 1,92x. Sur les tâches bidirectionnelles, il réalise une amélioration de +59 % sur la complétion de poèmes contraints. Ces résultats démontrent que LaViDa constitue une alternative solide aux VLMs AR. Le code et les modèles seront publiés dans la version finale.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.Summary
AI-Generated Summary