ChatPaper.aiChatPaper

PaLM2-VAdapter: 段階的に整合された言語モデルが強力な視覚-言語アダプタを実現

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

February 16, 2024
著者: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI

要旨

本論文では、段階的にアライメントされた言語モデルが、凍結された視覚エンコーダと大規模言語モデル(LLM)を効果的に橋渡しできることを示す。視覚エンコーダとLLMの基本的なアーキテクチャと事前学習手法は広く研究されているが、視覚言語アダプタのアーキテクチャと学習戦略は最近の研究において大きく異なる。本研究では、最先端のパーシバリサンプラアーキテクチャを徹底的に探求し、強力なベースラインを構築した。しかし、パーシバリサンプラを用いた視覚言語アライメントは、直接的な監督が欠如しているため、収束が遅く、スケーラビリティが限られていることが観察された。この問題に対処するため、段階的にアライメントされた言語モデルを視覚言語アダプタとして採用したPaLM2-VAdapterを提案する。パーシバリサンプラを用いた強力なベースラインと比較して、我々の手法は経験的に、より速い収束、高い性能、および強いスケーラビリティを示す。画像およびビデオにおける様々な視覚質問応答(VQA)およびキャプショニングタスクにわたる広範な実験により、我々のモデルが最先端の視覚理解とマルチモーダル推論能力を発揮することが実証された。特に、我々の手法は、最先端の大規模視覚言語モデルと比較して30〜70%少ないパラメータでこれらの進歩を達成し、効率の大幅な向上を実現している。
English
This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
PDF162December 15, 2024