BRAVE: 비전-언어 모델의 시각적 인코딩 확장
BRAVE: Broadening the visual encoding of vision-language models
April 10, 2024
저자: Oğuzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari
cs.AI
초록
비전-언어 모델(VLMs)은 일반적으로 CLIP과 같은 비전 인코더와 인코딩된 특징을 해석하여 다운스트림 작업을 해결하는 언어 모델(LM)로 구성됩니다. 비록 놀라운 발전을 이루었지만, VLMs는 비전 인코더의 제한된 능력으로 인해 특정 이미지 특징에 대한 "시각적 맹목", 시각적 환각 등 여러 단점에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 VLMs의 시각적 인코딩 능력을 확장하는 방법을 연구합니다. 먼저, 다양한 귀납적 편향을 가진 여러 비전 인코더를 VLM 작업 해결을 위해 종합적으로 벤치마킹합니다. 우리는 단일 인코딩 구성이 모든 작업에서 일관되게 최고 성능을 달성하지 못하며, 서로 다른 편향을 가진 인코더들이 놀랍도록 유사한 성능을 보인다는 것을 관찰했습니다. 이를 바탕으로, 우리는 BRAVE라는 방법을 도입하여 여러 고정된 인코더의 특징을 통합하여 더 다재다능한 표현으로 만들고, 이를 고정된 LM의 입력으로 직접 제공할 수 있게 합니다. BRAVE는 다양한 캡셔닝 및 VQA 벤치마크에서 최첨단 성능을 달성하며, VLMs의 앞서 언급된 문제를 크게 줄이고, 기존 방법보다 적은 수의 학습 가능한 매개변수를 요구하며, 더 압축된 표현을 가집니다. 우리의 결과는 다양한 시각적 편향을 통합하여 VLMs의 더 넓고 맥락화된 시각적 이해를 위한 잠재력을 강조합니다.
English
Vision-language models (VLMs) are typically composed of a vision encoder,
e.g. CLIP, and a language model (LM) that interprets the encoded features to
solve downstream tasks. Despite remarkable progress, VLMs are subject to
several shortcomings due to the limited capabilities of vision encoders, e.g.
"blindness" to certain image features, visual hallucination, etc. To address
these issues, we study broadening the visual encoding capabilities of VLMs. We
first comprehensively benchmark several vision encoders with different
inductive biases for solving VLM tasks. We observe that there is no single
encoding configuration that consistently achieves top performance across
different tasks, and encoders with different biases can perform surprisingly
similarly. Motivated by this, we introduce a method, named BRAVE, that
consolidates features from multiple frozen encoders into a more versatile
representation that can be directly fed as the input to a frozen LM. BRAVE
achieves state-of-the-art performance on a broad range of captioning and VQA
benchmarks and significantly reduces the aforementioned issues of VLMs, while
requiring a smaller number of trainable parameters than existing methods and
having a more compressed representation. Our results highlight the potential of
incorporating different visual biases for a more broad and contextualized
visual understanding of VLMs.