LaViDa: Крупная диффузионная языковая модель для мультимодального понимания
LaViDa: A Large Diffusion Language Model for Multimodal Understanding
May 22, 2025
Авторы: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI
Аннотация
Современные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), способны решать широкий спектр задач, требующих визуального анализа. В реальных сценариях желательными свойствами для VLMs являются быстрое выполнение выводов и контролируемая генерация (например, ограничение выходных данных для соответствия заданному формату). Однако существующие авторегрессивные (AR) VLMs, такие как LLaVA, испытывают трудности в этих аспектах. Дискретные диффузионные модели (DMs) предлагают многообещающую альтернативу, позволяя параллельное декодирование для ускорения вывода и использование двунаправленного контекста для контролируемой генерации через заполнение текста. Хотя DMs эффективны в задачах, связанных только с языком, их потенциал для мультимодальных задач изучен недостаточно. Мы представляем LaViDa — семейство VLMs, основанных на DMs. Мы создаем LaViDa, оснащая DMs визуальным кодировщиком и совместно дообучая объединенные компоненты для выполнения мультимодальных инструкций. Для решения возникающих проблем LaViDa включает новые методы, такие как комплементарное маскирование для эффективного обучения, кэширование префиксов KV для ускоренного вывода и сдвиг временных шагов для высококачественной выборки. Эксперименты показывают, что LaViDa демонстрирует конкурентоспособные или превосходящие результаты по сравнению с AR VLMs на мультимодальных бенчмарках, таких как MMMU, предлагая уникальные преимущества DMs, включая гибкий компромисс между скоростью и качеством, контролируемость и двунаправленное рассуждение. На задаче генерации подписей к изображениям COCO LaViDa превосходит Open-LLaVa-Next-8B на +4.1 CIDEr с ускорением в 1.92 раза. На двунаправленных задачах она достигает улучшения на +59% в задаче завершения стихов с ограничениями. Эти результаты демонстрируют LaViDa как мощную альтернативу AR VLMs. Код и модели будут опубликованы в финальной версии статьи.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks
requiring visual reasoning. In real-world scenarios, desirable properties for
VLMs include fast inference and controllable generation (e.g., constraining
outputs to adhere to a desired format). However, existing autoregressive (AR)
VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs)
offer a promising alternative, enabling parallel decoding for faster inference
and bidirectional context for controllable generation through text-infilling.
While effective in language-only settings, DMs' potential for multimodal tasks
is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build
LaViDa by equipping DMs with a vision encoder and jointly fine-tune the
combined parts for multimodal instruction following. To address challenges
encountered, LaViDa incorporates novel techniques such as complementary masking
for effective training, prefix KV cache for efficient inference, and timestep
shifting for high-quality sampling. Experiments show that LaViDa achieves
competitive or superior performance to AR VLMs on multi-modal benchmarks such
as MMMU, while offering unique advantages of DMs, including flexible
speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO
captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x
speedup. On bidirectional tasks, it achieves +59% improvement on Constrained
Poem Completion. These results demonstrate LaViDa as a strong alternative to AR
VLMs. Code and models will be released in the camera-ready version.Summary
AI-Generated Summary