ChatPaper.aiChatPaper

AlignVLM : Relier les espaces latents de la vision et du langage pour une compréhension multimodale

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding

February 3, 2025
Auteurs: Ahmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte Suresh, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Tejaswi Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque, Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar
cs.AI

Résumé

L'alignement des caractéristiques visuelles avec les plongements linguistiques est un défi majeur dans les modèles vision-langage (VLM). Les performances de ces modèles reposent sur la qualité d'un connecteur qui cartographie les caractéristiques visuelles générées par un encodeur visuel vers un espace d'incorporation partagé avec le LLM tout en préservant la similarité sémantique. Les connecteurs existants, tels que les perceptrons multicouches (MLP), produisent souvent des entrées hors distribution ou bruitées, entraînant un désalignement entre les modalités. Dans ce travail, nous proposons une nouvelle méthode d'alignement vision-texte, AlignVLM, qui cartographie les caractéristiques visuelles vers une moyenne pondérée des plongements textuels du LLM. Notre approche tire parti des connaissances linguistiques encodées par le LLM pour garantir que les caractéristiques visuelles sont cartographiées vers des régions de l'espace que le LLM peut interpréter efficacement. AlignVLM est particulièrement efficace pour les tâches de compréhension de documents, où les images de documents numérisés doivent être précisément cartographiées vers leur contenu textuel. Nos expériences approfondies montrent qu'AlignVLM atteint des performances de pointe par rapport aux méthodes d'alignement précédentes. Nous fournissons une analyse supplémentaire démontrant un meilleur alignement des caractéristiques vision-texte et une robustesse au bruit.
English
Aligning visual features with language embeddings is a key challenge in vision-language models (VLMs). The performance of such models hinges on having a good connector that maps visual features generated by a vision encoder to a shared embedding space with the LLM while preserving semantic similarity. Existing connectors, such as multilayer perceptrons (MLPs), often produce out-of-distribution or noisy inputs, leading to misalignment between the modalities. In this work, we propose a novel vision-text alignment method, AlignVLM, that maps visual features to a weighted average of LLM text embeddings. Our approach leverages the linguistic priors encoded by the LLM to ensure that visual features are mapped to regions of the space that the LLM can effectively interpret. AlignVLM is particularly effective for document understanding tasks, where scanned document images must be accurately mapped to their textual content. Our extensive experiments show that AlignVLM achieves state-of-the-art performance compared to prior alignment methods. We provide further analysis demonstrating improved vision-text feature alignment and robustness to noise.

Summary

AI-Generated Summary

PDF393February 4, 2025