ChatPaper.aiChatPaper

LaViDa: Um Grande Modelo de Linguagem de Difusão para Compreensão Multimodal

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

May 22, 2025
Autores: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI

Resumo

Os Modelos Visão-Linguagem (VLMs) modernos podem resolver uma ampla gama de tarefas que exigem raciocínio visual. Em cenários do mundo real, propriedades desejáveis para VLMs incluem inferência rápida e geração controlável (por exemplo, restringir as saídas para aderir a um formato desejado). No entanto, os VLMs autoregressivos (AR) existentes, como o LLaVA, enfrentam dificuldades nesses aspectos. Os modelos de difusão discreta (DMs) oferecem uma alternativa promissora, permitindo decodificação paralela para inferência mais rápida e contexto bidirecional para geração controlável por meio de preenchimento de texto. Embora eficazes em configurações apenas de linguagem, o potencial dos DMs para tarefas multimodais é pouco explorado. Apresentamos o LaViDa, uma família de VLMs baseada em DMs. Construímos o LaViDa equipando os DMs com um codificador visual e ajustando conjuntamente as partes combinadas para seguir instruções multimodais. Para enfrentar os desafios encontrados, o LaViDa incorpora técnicas inovadoras, como mascaramento complementar para treinamento eficaz, cache de prefixo KV para inferência eficiente e deslocamento de timestep para amostragem de alta qualidade. Experimentos mostram que o LaViDa alcança desempenho competitivo ou superior aos VLMs AR em benchmarks multimodais como o MMMU, ao mesmo tempo que oferece vantagens únicas dos DMs, incluindo flexibilidade na troca entre velocidade e qualidade, controlabilidade e raciocínio bidirecional. Na tarefa de legendagem do COCO, o LaViDa supera o Open-LLaVa-Next-8B em +4,1 CIDEr com uma aceleração de 1,92x. Em tarefas bidirecionais, ele alcança uma melhoria de +59% na Conclusão de Poema Restrita. Esses resultados demonstram o LaViDa como uma forte alternativa aos VLMs AR. O código e os modelos serão liberados na versão final do artigo.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs' potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.
PDF132December 14, 2025