ChatPaper.aiChatPaper

BRAVE : Élargissement de l'encodage visuel des modèles vision-langage

BRAVE: Broadening the visual encoding of vision-language models

April 10, 2024
papers.authors: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI

papers.abstract

Les modèles vision-langage (VLMs) sont généralement composés d'un encodeur visuel, par exemple CLIP, et d'un modèle de langage (LM) qui interprète les caractéristiques encodées pour résoudre des tâches en aval. Malgré des progrès remarquables, les VLMs présentent plusieurs lacunes dues aux capacités limitées des encodeurs visuels, comme une "cécité" à certaines caractéristiques d'images, des hallucinations visuelles, etc. Pour résoudre ces problèmes, nous étudions l'élargissement des capacités d'encodage visuel des VLMs. Nous commençons par évaluer de manière exhaustive plusieurs encodeurs visuels avec différents biais inductifs pour résoudre des tâches de VLM. Nous observons qu'il n'existe pas une seule configuration d'encodage qui obtient systématiquement les meilleures performances sur différentes tâches, et que des encodeurs avec des biais différents peuvent avoir des performances étonnamment similaires. Motivés par cela, nous introduisons une méthode, nommée BRAVE, qui consolide les caractéristiques de plusieurs encodeurs figés en une représentation plus polyvalente qui peut être directement utilisée comme entrée d'un LM figé. BRAVE atteint des performances de pointe sur un large éventail de benchmarks de légendage et de VQA, et réduit significativement les problèmes mentionnés des VLMs, tout en nécessitant un nombre moindre de paramètres entraînables par rapport aux méthodes existantes et en ayant une représentation plus compressée. Nos résultats mettent en évidence le potentiel de l'intégration de différents biais visuels pour une compréhension visuelle plus large et contextualisée des VLMs.
English
Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.
PDF191December 15, 2024