BRAVE : Élargissement de l'encodage visuel des modèles vision-langage
BRAVE: Broadening the visual encoding of vision-language models
April 10, 2024
papers.authors: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) sont généralement composés d'un encodeur visuel, par exemple CLIP, et d'un modèle de langage (LM) qui interprète les caractéristiques encodées pour résoudre des tâches en aval. Malgré des progrès remarquables, les VLMs présentent plusieurs lacunes dues aux capacités limitées des encodeurs visuels, comme une "cécité" à certaines caractéristiques d'images, des hallucinations visuelles, etc. Pour résoudre ces problèmes, nous étudions l'élargissement des capacités d'encodage visuel des VLMs. Nous commençons par évaluer de manière exhaustive plusieurs encodeurs visuels avec différents biais inductifs pour résoudre des tâches de VLM. Nous observons qu'il n'existe pas une seule configuration d'encodage qui obtient systématiquement les meilleures performances sur différentes tâches, et que des encodeurs avec des biais différents peuvent avoir des performances étonnamment similaires. Motivés par cela, nous introduisons une méthode, nommée BRAVE, qui consolide les caractéristiques de plusieurs encodeurs figés en une représentation plus polyvalente qui peut être directement utilisée comme entrée d'un LM figé. BRAVE atteint des performances de pointe sur un large éventail de benchmarks de légendage et de VQA, et réduit significativement les problèmes mentionnés des VLMs, tout en nécessitant un nombre moindre de paramètres entraînables par rapport aux méthodes existantes et en ayant une représentation plus compressée. Nos résultats mettent en évidence le potentiel de l'intégration de différents biais visuels pour une compréhension visuelle plus large et contextualisée des VLMs.
English
Vision-language models (VLMs) are typically composed of a vision encoder,
e.g. CLIP, and a language model (LM) that interprets the encoded features to
solve downstream tasks. Despite remarkable progress, VLMs are subject to
several shortcomings due to the limited capabilities of vision encoders, e.g.
"blindness" to certain image features, visual hallucination, etc. To address
these issues, we study broadening the visual encoding capabilities of VLMs. We
first comprehensively benchmark several vision encoders with different
inductive biases for solving VLM tasks. We observe that there is no single
encoding configuration that consistently achieves top performance across
different tasks, and encoders with different biases can perform surprisingly
similarly. Motivated by this, we introduce a method, named BRAVE, that
consolidates features from multiple frozen encoders into a more versatile
representation that can be directly fed as the input to a frozen LM. BRAVE
achieves state-of-the-art performance on a broad range of captioning and VQA
benchmarks and significantly reduces the aforementioned issues of VLMs, while
requiring a smaller number of trainable parameters than existing methods and
having a more compressed representation. Our results highlight the potential of
incorporating different visual biases for a more broad and contextualized
visual understanding of VLMs.