BRAVE: Ampliamento della codifica visiva nei modelli visione-linguaggio

Abstract

I modelli visione-linguaggio (VLMs) sono tipicamente composti da un encoder visivo, ad esempio CLIP, e da un modello linguistico (LM) che interpreta le caratteristiche codificate per risolvere task downstream. Nonostante i notevoli progressi, i VLMs presentano diverse limitazioni dovute alle capacità ridotte degli encoder visivi, come la "cecità" a determinate caratteristiche delle immagini, allucinazioni visive, ecc. Per affrontare questi problemi, studiamo l'ampliamento delle capacità di codifica visiva dei VLMs. Inizialmente, eseguiamo un benchmark completo di diversi encoder visivi con diversi bias induttivi per risolvere task di VLMs. Osserviamo che non esiste una singola configurazione di codifica che ottenga costantemente prestazioni migliori su task diversi, e che encoder con bias diversi possono performare in modo sorprendentemente simile. Motivati da ciò, introduciamo un metodo, denominato BRAVE, che consolida le caratteristiche di più encoder congelati in una rappresentazione più versatile che può essere direttamente utilizzata come input per un LM congelato. BRAVE raggiunge prestazioni all'avanguardia su un'ampia gamma di benchmark di captioning e VQA e riduce significativamente i problemi sopra menzionati dei VLMs, richiedendo un numero inferiore di parametri addestrabili rispetto ai metodi esistenti e avendo una rappresentazione più compressa. I nostri risultati evidenziano il potenziale dell'incorporazione di diversi bias visivi per una comprensione visiva più ampia e contestualizzata nei VLMs.

English

Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.

BRAVE: Ampliamento della codifica visiva nei modelli visione-linguaggio

BRAVE: Broadening the visual encoding of vision-language models

Abstract

Support