ChatPaper.aiChatPaper

AlignVLM: Conectando los Espacios Latentes de Visión y Lenguaje para la Comprensión Multimodal

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding

February 3, 2025
Autores: Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte Suresh, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Tejaswi Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque, Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar
cs.AI

Resumen

Alinear las características visuales con los embeddings de lenguaje es un desafío clave en los modelos visión-lenguaje (VLMs). El rendimiento de dichos modelos depende de contar con un buen conector que mapee las características visuales generadas por un codificador de visión a un espacio de embeddings compartido con el LLM, preservando la similitud semántica. Los conectores existentes, como los perceptrones multicapa (MLPs), a menudo producen entradas fuera de distribución o ruidosas, lo que conduce a desalineaciones entre las modalidades. En este trabajo, proponemos un método novedoso de alineación visión-texto, AlignVLM, que mapea las características visuales a un promedio ponderado de los embeddings de texto del LLM. Nuestro enfoque aprovecha los conocimientos lingüísticos codificados por el LLM para asegurar que las características visuales se mapeen a regiones del espacio que el LLM pueda interpretar efectivamente. AlignVLM es particularmente efectivo para tareas de comprensión de documentos, donde las imágenes de documentos escaneados deben mapearse con precisión a su contenido textual. Nuestros extensos experimentos muestran que AlignVLM logra un rendimiento de vanguardia en comparación con los métodos de alineación anteriores. Proporcionamos un análisis adicional que demuestra una mejora en la alineación de características visión-texto y una mayor robustez al ruido.
English
Aligning visual features with language embeddings is a key challenge in vision-language models (VLMs). The performance of such models hinges on having a good connector that maps visual features generated by a vision encoder to a shared embedding space with the LLM while preserving semantic similarity. Existing connectors, such as multilayer perceptrons (MLPs), often produce out-of-distribution or noisy inputs, leading to misalignment between the modalities. In this work, we propose a novel vision-text alignment method, AlignVLM, that maps visual features to a weighted average of LLM text embeddings. Our approach leverages the linguistic priors encoded by the LLM to ensure that visual features are mapped to regions of the space that the LLM can effectively interpret. AlignVLM is particularly effective for document understanding tasks, where scanned document images must be accurately mapped to their textual content. Our extensive experiments show that AlignVLM achieves state-of-the-art performance compared to prior alignment methods. We provide further analysis demonstrating improved vision-text feature alignment and robustness to noise.

Summary

AI-Generated Summary

PDF393February 4, 2025