ChatPaper.aiChatPaper

BRAVE: 비전-언어 모델의 시각적 인코딩 확장

BRAVE: Broadening the visual encoding of vision-language models

April 10, 2024
저자: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI

초록

비전-언어 모델(VLMs)은 일반적으로 CLIP과 같은 비전 인코더와 인코딩된 특징을 해석하여 다운스트림 작업을 해결하는 언어 모델(LM)로 구성됩니다. 비록 놀라운 발전을 이루었지만, VLMs는 비전 인코더의 제한된 능력으로 인해 특정 이미지 특징에 대한 "시각적 맹목", 시각적 환각 등 여러 단점에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 VLMs의 시각적 인코딩 능력을 확장하는 방법을 연구합니다. 먼저, 다양한 귀납적 편향을 가진 여러 비전 인코더를 VLM 작업 해결을 위해 종합적으로 벤치마킹합니다. 우리는 단일 인코딩 구성이 모든 작업에서 일관되게 최고 성능을 달성하지 못하며, 서로 다른 편향을 가진 인코더들이 놀랍도록 유사한 성능을 보인다는 것을 관찰했습니다. 이를 바탕으로, 우리는 BRAVE라는 방법을 도입하여 여러 고정된 인코더의 특징을 통합하여 더 다재다능한 표현으로 만들고, 이를 고정된 LM의 입력으로 직접 제공할 수 있게 합니다. BRAVE는 다양한 캡셔닝 및 VQA 벤치마크에서 최첨단 성능을 달성하며, VLMs의 앞서 언급된 문제를 크게 줄이고, 기존 방법보다 적은 수의 학습 가능한 매개변수를 요구하며, 더 압축된 표현을 가집니다. 우리의 결과는 다양한 시각적 편향을 통합하여 VLMs의 더 넓고 맥락화된 시각적 이해를 위한 잠재력을 강조합니다.
English
Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive biases for solving VLM tasks. We observe that there is no single encoding configuration that consistently achieves top performance across different tasks, and encoders with different biases can perform surprisingly similarly. Motivated by this, we introduce a method, named BRAVE, that consolidates features from multiple frozen encoders into a more versatile representation that can be directly fed as the input to a frozen LM. BRAVE achieves state-of-the-art performance on a broad range of captioning and VQA benchmarks and significantly reduces the aforementioned issues of VLMs, while requiring a smaller number of trainable parameters than existing methods and having a more compressed representation. Our results highlight the potential of incorporating different visual biases for a more broad and contextualized visual understanding of VLMs.
PDF191December 15, 2024