BRAVE: Verbreding van de visuele codering van visie-taalmodellen
BRAVE: Broadening the visual encoding of vision-language models
April 10, 2024
Auteurs: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI
Samenvatting
Vision-language modellen (VLMs) bestaan doorgaans uit een visuele encoder, bijvoorbeeld CLIP, en een taalmodel (LM) dat de gecodeerde kenmerken interpreteert om downstream taken op te lossen. Ondanks opmerkelijke vooruitgang kampen VLMs met verschillende tekortkomingen vanwege de beperkte mogelijkheden van visuele encoders, zoals "blindheid" voor bepaalde beeldkenmerken, visuele hallucinaties, enzovoort. Om deze problemen aan te pakken, onderzoeken we het verbreden van de visuele coderingsmogelijkheden van VLMs. We benchmarken eerst uitgebreid verschillende visuele encoders met verschillende inductieve biases voor het oplossen van VLM-taken. We observeren dat er geen enkele coderingsconfiguratie is die consistent de beste prestaties levert over verschillende taken, en dat encoders met verschillende biases verrassend vergelijkbaar kunnen presteren. Gemotiveerd door deze bevinding introduceren we een methode, genaamd BRAVE, die kenmerken van meerdere bevroren encoders consolideert tot een veelzijdigere representatie die direct als invoer aan een bevroren LM kan worden gevoed. BRAVE behaalt state-of-the-art prestaties op een breed scala aan captioning- en VQA-benchmarks en vermindert de eerder genoemde problemen van VLMs aanzienlijk, terwijl het minder trainbare parameters vereist dan bestaande methoden en een meer gecomprimeerde representatie heeft. Onze resultaten benadrukken het potentieel van het incorporeren van verschillende visuele biases voor een breder en meer contextueel visueel begrip van VLMs.
English
Vision-language models (VLMs) are typically composed of a vision encoder,
e.g. CLIP, and a language model (LM) that interprets the encoded features to
solve downstream tasks. Despite remarkable progress, VLMs are subject to
several shortcomings due to the limited capabilities of vision encoders, e.g.
"blindness" to certain image features, visual hallucination, etc. To address
these issues, we study broadening the visual encoding capabilities of VLMs. We
first comprehensively benchmark several vision encoders with different
inductive biases for solving VLM tasks. We observe that there is no single
encoding configuration that consistently achieves top performance across
different tasks, and encoders with different biases can perform surprisingly
similarly. Motivated by this, we introduce a method, named BRAVE, that
consolidates features from multiple frozen encoders into a more versatile
representation that can be directly fed as the input to a frozen LM. BRAVE
achieves state-of-the-art performance on a broad range of captioning and VQA
benchmarks and significantly reduces the aforementioned issues of VLMs, while
requiring a smaller number of trainable parameters than existing methods and
having a more compressed representation. Our results highlight the potential of
incorporating different visual biases for a more broad and contextualized
visual understanding of VLMs.