ChatPaper.aiChatPaper

PaLM2-VAdapter: 점진적 정렬 언어 모델이 강력한 시각-언어 어댑터를 만든다

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

February 16, 2024
저자: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI

초록

본 논문은 점진적으로 정렬된 언어 모델이 고정된 비전 인코더와 대형 언어 모델(LLMs) 간의 효과적인 연결을 가능하게 함을 입증한다. 비전 인코더와 LLMs의 기본 아키텍처와 사전 학습 방법은 광범위하게 연구되어 왔지만, 비전-언어 어댑터의 아키텍처와 학습 전략은 최근 연구들 간에 상당히 다양하게 나타난다. 본 연구는 최신 퍼시버 리샘플러(perceiver resampler) 아키텍처를 철저히 탐구하고 강력한 베이스라인을 구축한다. 그러나 퍼시버 리샘플러를 사용한 비전-언어 정렬은 직접적인 지도가 부족하여 느린 수렴 속도와 제한된 확장성을 보이는 것으로 관찰되었다. 이 문제를 해결하기 위해, 우리는 점진적으로 정렬된 언어 모델을 비전-언어 어댑터로 사용하는 PaLM2-VAdapter를 제안한다. 퍼시버 리샘플러를 사용한 강력한 베이스라인과 비교하여, 우리의 방법은 실험적으로 더 빠른 수렴 속도, 더 높은 성능, 그리고 더 강력한 확장성을 보여준다. 이미지와 비디오에 대한 다양한 시각적 질의응답(VQA) 및 캡셔닝 작업에서의 광범위한 실험을 통해, 우리의 모델이 최신 수준의 시각적 이해와 다중 모달 추론 능력을 보여줌을 입증한다. 특히, 우리의 방법은 최신 대형 비전-언어 모델보다 30~70% 적은 매개변수로 이러한 성과를 달성하여, 상당한 효율성 개선을 이루었다.
English
This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
PDF162December 15, 2024