BRAVE: Verbreding van de visuele codering van visie-taalmodellen

Samenvatting

Vision-language modellen (VLMs) bestaan doorgaans uit een visuele encoder, bijvoorbeeld CLIP, en een taalmodel (LM) dat de gecodeerde kenmerken interpreteert om downstream taken op te lossen. Ondanks opmerkelijke vooruitgang kampen VLMs met verschillende tekortkomingen vanwege de beperkte mogelijkheden van visuele encoders, zoals "blindheid" voor bepaalde beeldkenmerken, visuele hallucinaties, enzovoort. Om deze problemen aan te pakken, onderzoeken we het verbreden van de visuele coderingsmogelijkheden van VLMs. We benchmarken eerst uitgebreid verschillende visuele encoders met verschillende inductieve biases voor het oplossen van VLM-taken. We observeren dat er geen enkele coderingsconfiguratie is die consistent de beste prestaties levert over verschillende taken, en dat encoders met verschillende biases verrassend vergelijkbaar kunnen presteren. Gemotiveerd door deze bevinding introduceren we een methode, genaamd BRAVE, die kenmerken van meerdere bevroren encoders consolideert tot een veelzijdigere representatie die direct als invoer aan een bevroren LM kan worden gevoed. BRAVE behaalt state-of-the-art prestaties op een breed scala aan captioning- en VQA-benchmarks en vermindert de eerder genoemde problemen van VLMs aanzienlijk, terwijl het minder trainbare parameters vereist dan bestaande methoden en een meer gecomprimeerde representatie heeft. Onze resultaten benadrukken het potentieel van het incorporeren van verschillende visuele biases voor een breder en meer contextueel visueel begrip van VLMs.

English

Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.

BRAVE: Verbreding van de visuele codering van visie-taalmodellen

BRAVE: Broadening the visual encoding of vision-language models

Samenvatting

Support