PaLM2-VAdapter : Un modèle de langage progressivement aligné constitue un puissant adaptateur vision-langage
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
papers.authors: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
papers.abstract
Cet article démontre qu'un modèle de langage progressivement aligné peut
efficacement relier des encodeurs visuels figés et des modèles de langage
étendus (LLMs). Bien que l'architecture fondamentale et les méthodes de
pré-entraînement des encodeurs visuels et des LLMs aient été largement étudiées,
l'architecture et la stratégie d'entraînement des adaptateurs vision-langage
varient considérablement dans les travaux récents. Notre recherche entreprend une
exploration approfondie de l'architecture de rééchantillonneur perceiver de
pointe et établit une base de référence solide. Cependant, nous observons que
l'alignement vision-langage avec le rééchantillonneur perceiver présente une
convergence lente et une scalabilité limitée, avec un manque de supervision
directe. Pour résoudre ce problème, nous proposons PaLM2-VAdapter, utilisant un
modèle de langage progressivement aligné comme adaptateur vision-langage. Par
rapport à la base de référence solide avec le rééchantillonneur perceiver, notre
méthode montre empiriquement une convergence plus rapide, une performance
supérieure et une scalabilité accrue. Des expériences approfondies sur diverses
tâches de réponse à des questions visuelles (VQA) et de génération de légendes
sur des images et des vidéos démontrent que notre modèle présente des
capacités de compréhension visuelle et de raisonnement multimodal de pointe. De
manière notable, notre méthode atteint ces avancées avec 30 à 70 % de paramètres
en moins que les modèles vision-langage étendus de pointe, marquant une
amélioration significative de l'efficacité.
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.