PaLM2-VAdapter: Progressief Uitgelijnd Taalmodel vormt een Krachtige Visie-Taaladapter
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
Auteurs: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
Samenvatting
Dit artikel toont aan dat een progressief uitgelijnd taalmodel effectief bevroren visuele encoders en grote taalmmodellen (LLMs) kan verbinden. Hoewel de fundamentele architectuur en pre-trainingsmethoden van visuele encoders en LLMs uitgebreid zijn bestudeerd, variëren de architectuur en trainingsstrategie van visie-taaladapters aanzienlijk in recente werken. Ons onderzoek onderneemt een grondige verkenning van de state-of-the-art perceiver resampler-architectuur en bouwt een sterke baseline. We observeren echter dat de visie-taal-uitlijning met de perceiver resampler trage convergentie en beperkte schaalbaarheid vertoont, met een gebrek aan directe supervisie. Om dit probleem aan te pakken, stellen we PaLM2-VAdapter voor, waarbij een progressief uitgelijnd taalmodel wordt gebruikt als de visie-taaladapter. In vergelijking met de sterke baseline met perceiver resampler, toont onze methode empirisch snellere convergentie, hogere prestaties en sterkere schaalbaarheid. Uitgebreide experimenten over diverse Visual Question Answering (VQA) en captioning-taken op zowel afbeeldingen als video's demonstreren dat ons model state-of-the-art visueel begrip en multi-modale redeneervaardigheden vertoont. Opmerkelijk is dat onze methode deze vooruitgang bereikt met 30~70% minder parameters dan de state-of-the-art grote visie-taalmodellen, wat een significante efficiëntieverbetering markeert.
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.