LaViDa: Een groot diffusie-taalmodel voor multimodale interpretatie
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
Auteurs: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
Samenvatting
Moderne Vision-Language Models (VLMs) kunnen een breed scala aan taken oplossen die visueel redeneren vereisen. In real-world scenario's zijn wenselijke eigenschappen voor VLMs snelle inferentie en controleerbare generatie (bijvoorbeeld het beperken van uitvoer om aan een gewenst formaat te voldoen). Echter, bestaande autoregressieve (AR) VLMs zoals LLaVA presteren minder goed op deze aspecten. Discrete diffusiemodellen (DMs) bieden een veelbelovend alternatief, waardoor parallelle decodering mogelijk wordt voor snellere inferentie en bidirectionele context voor controleerbare generatie via tekst-invulling. Hoewel effectief in taalgerichte omgevingen, is het potentieel van DMs voor multimodale taken onderbelicht. Wij introduceren LaViDa, een familie van VLMs gebaseerd op DMs. We bouwen LaViDa door DMs uit te rusten met een vision-encoder en gezamenlijk de gecombineerde onderdelen te fine-tunen voor multimodale instructievolging. Om de uitdagingen die zich voordoen aan te pakken, integreert LaViDa nieuwe technieken zoals complementaire masking voor effectieve training, prefix KV-cache voor efficiënte inferentie en timestep shifting voor hoogwaardige sampling. Experimenten tonen aan dat LaViDa concurrerende of superieure prestaties behaalt ten opzichte van AR VLMs op multimodale benchmarks zoals MMMU, terwijl het unieke voordelen van DMs biedt, waaronder flexibele snelheid-kwaliteit afweging, controleerbaarheid en bidirectioneel redeneren. Op COCO-captioning overtreft LaViDa Open-LLaVa-Next-8B met +4.1 CIDEr en een 1.92x versnelling. Op bidirectionele taken behaalt het een verbetering van +59% op Constrained Poem Completion. Deze resultaten tonen aan dat LaViDa een sterk alternatief is voor AR VLMs. Code en modellen zullen worden vrijgegeven in de camera-ready versie.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.