ChatPaper.aiChatPaper

BRAVE: Ampliando la codificación visual de los modelos de visión y lenguaje

BRAVE: Broadening the visual encoding of vision-language models

April 10, 2024
Autores: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI

Resumen

Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) suelen estar compuestos por un codificador visual, por ejemplo, CLIP, y un modelo de lenguaje (LM) que interpreta las características codificadas para resolver tareas posteriores. A pesar de los avances notables, los VLMs presentan varias limitaciones debido a las capacidades restringidas de los codificadores visuales, como la "ceguera" ante ciertas características de las imágenes, las alucinaciones visuales, etc. Para abordar estos problemas, estudiamos la ampliación de las capacidades de codificación visual de los VLMs. Primero, realizamos una evaluación exhaustiva de varios codificadores visuales con diferentes sesgos inductivos para resolver tareas de VLMs. Observamos que no existe una única configuración de codificación que logre consistentemente el mejor rendimiento en diferentes tareas, y que codificadores con sesgos distintos pueden desempeñarse de manera sorprendentemente similar. Motivados por esto, introducimos un método, denominado BRAVE, que consolida características de múltiples codificadores congelados en una representación más versátil que puede ser directamente utilizada como entrada para un LM congelado. BRAVE alcanza un rendimiento de vanguardia en una amplia gama de benchmarks de generación de descripciones y VQA (Visual Question Answering), y reduce significativamente los problemas mencionados de los VLMs, mientras requiere un menor número de parámetros entrenables que los métodos existentes y ofrece una representación más comprimida. Nuestros resultados destacan el potencial de incorporar diferentes sesgos visuales para lograr una comprensión visual más amplia y contextualizada en los VLMs.
English
Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.

Summary

AI-Generated Summary

PDF191December 15, 2024