LaViDa: Un Grande Modello Linguistico di Diffusione per la Comprensione Multimodale
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
Autori: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
Abstract
I moderni modelli visione-linguaggio (VLMs) possono risolvere un'ampia gamma di compiti che richiedono ragionamento visivo. Negli scenari reali, le proprietà desiderabili per i VLMs includono inferenza rapida e generazione controllabile (ad esempio, vincolare gli output a rispettare un formato desiderato). Tuttavia, gli attuali VLMs autoregressivi (AR) come LLaVA faticano in questi aspetti. I modelli di diffusione discreta (DMs) offrono un'alternativa promettente, consentendo decodifica parallela per un'inferenza più veloce e contesto bidirezionale per una generazione controllabile tramite riempimento di testo. Sebbene efficaci in contesti esclusivamente linguistici, il potenziale dei DMs per compiti multimodali è poco esplorato. Introduciamo LaViDa, una famiglia di VLMs basata su DMs. Costruiamo LaViDa dotando i DMs di un encoder visivo e ottimizzando congiuntamente le parti combinate per il seguimento di istruzioni multimodali. Per affrontare le sfide incontrate, LaViDa incorpora tecniche innovative come il mascheramento complementare per un addestramento efficace, la cache KV prefissata per un'inferenza efficiente e lo spostamento temporale per un campionamento di alta qualità. Gli esperimenti mostrano che LaViDa raggiunge prestazioni competitive o superiori rispetto ai VLMs AR su benchmark multimodali come MMMU, offrendo al contempo i vantaggi unici dei DMs, tra cui flessibilità nel compromesso velocità-qualità, controllabilità e ragionamento bidirezionale. Su COCO captioning, LaViDa supera Open-LLaVa-Next-8B di +4.1 CIDEr con un'accelerazione di 1.92x. Su compiti bidirezionali, ottiene un miglioramento del +59% su Constrained Poem Completion. Questi risultati dimostrano LaViDa come una valida alternativa ai VLMs AR. Codice e modelli saranno rilasciati nella versione finale.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.