PaLM2-VAdapter: 段階的に整合された言語モデルが強力な視覚-言語アダプタを実現
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
著者: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
要旨
本論文では、段階的にアライメントされた言語モデルが、凍結された視覚エンコーダと大規模言語モデル(LLM)を効果的に橋渡しできることを示す。視覚エンコーダとLLMの基本的なアーキテクチャと事前学習手法は広く研究されているが、視覚言語アダプタのアーキテクチャと学習戦略は最近の研究において大きく異なる。本研究では、最先端のパーシバリサンプラアーキテクチャを徹底的に探求し、強力なベースラインを構築した。しかし、パーシバリサンプラを用いた視覚言語アライメントは、直接的な監督が欠如しているため、収束が遅く、スケーラビリティが限られていることが観察された。この問題に対処するため、段階的にアライメントされた言語モデルを視覚言語アダプタとして採用したPaLM2-VAdapterを提案する。パーシバリサンプラを用いた強力なベースラインと比較して、我々の手法は経験的に、より速い収束、高い性能、および強いスケーラビリティを示す。画像およびビデオにおける様々な視覚質問応答(VQA)およびキャプショニングタスクにわたる広範な実験により、我々のモデルが最先端の視覚理解とマルチモーダル推論能力を発揮することが実証された。特に、我々の手法は、最先端の大規模視覚言語モデルと比較して30〜70%少ないパラメータでこれらの進歩を達成し、効率の大幅な向上を実現している。
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.