ChatPaper.aiChatPaper

LaViDa: Un gran modelo de lenguaje de difusión para la comprensión multimodal

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

May 22, 2025
Autores: Shufan Li, Konstantinos Kallidromitis, Hritik Bansal, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Jason Kuen, Zhe Lin, Kai-Wei Chang, Aditya Grover
cs.AI

Resumen

Los modelos modernos de visión y lenguaje (VLMs) pueden resolver una amplia gama de tareas que requieren razonamiento visual. En escenarios del mundo real, las propiedades deseables para los VLMs incluyen inferencia rápida y generación controlable (por ejemplo, restringir las salidas para que se ajusten a un formato deseado). Sin embargo, los VLMs autorregresivos (AR) existentes, como LLaVA, tienen dificultades en estos aspectos. Los modelos de difusión discreta (DMs) ofrecen una alternativa prometedora, permitiendo decodificación paralela para una inferencia más rápida y contexto bidireccional para una generación controlable mediante el relleno de texto. Aunque son efectivos en entornos de solo lenguaje, el potencial de los DMs para tareas multimodales está poco explorado. Presentamos LaViDa, una familia de VLMs basados en DMs. Construimos LaViDa equipando a los DMs con un codificador visual y ajustando conjuntamente las partes combinadas para seguir instrucciones multimodales. Para abordar los desafíos encontrados, LaViDa incorpora técnicas novedosas como el enmascaramiento complementario para un entrenamiento efectivo, la caché de prefijo KV para una inferencia eficiente y el desplazamiento de pasos temporales para un muestreo de alta calidad. Los experimentos muestran que LaViDa logra un rendimiento competitivo o superior al de los VLMs AR en benchmarks multimodales como MMMU, mientras ofrece ventajas únicas de los DMs, incluyendo un equilibrio flexible entre velocidad y calidad, controlabilidad y razonamiento bidireccional. En la generación de subtítulos en COCO, LaViDa supera a Open-LLaVa-Next-8B con un aumento de +4.1 en CIDEr y una aceleración de 1.92x. En tareas bidireccionales, logra una mejora del +59% en la finalización de poemas con restricciones. Estos resultados demuestran que LaViDa es una alternativa sólida a los VLMs AR. El código y los modelos se publicarán en la versión final.
English
Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs' potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.
PDF122May 23, 2025