PaLM2-VAdapter: Progressiv ausgerichtetes Sprachmodell als starker Vision-Sprache-Adapter
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
papers.authors: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
papers.abstract
Diese Arbeit zeigt, dass ein progressiv ausgerichtetes Sprachmodell effektiv eingefrorene Vision-Encoder und große Sprachmodelle (LLMs) verbinden kann. Während die grundlegende Architektur und die Vorab-Trainingsmethoden von Vision-Encodern und LLMs umfassend untersucht wurden, variieren die Architektur und die Trainingsstrategie von Vision-Sprache-Adaptern in aktuellen Arbeiten erheblich. Unsere Forschung unternimmt eine gründliche Untersuchung der state-of-the-art Perceiver-Resampler-Architektur und baut eine solide Baseline auf. Wir beobachten jedoch, dass die Vision-Sprache-Ausrichtung mit dem Perceiver-Resampler eine langsame Konvergenz und begrenzte Skalierbarkeit bei fehlender direkter Überwachung aufweist. Um dieses Problem zu lösen, schlagen wir PaLM2-VAdapter vor, das ein progressiv ausgerichtetes Sprachmodell als Vision-Sprache-Adapter verwendet. Im Vergleich zur starken Baseline mit Perceiver-Resampler zeigt unsere Methode empirisch eine schnellere Konvergenz, eine höhere Leistung und eine stärkere Skalierbarkeit. Umfangreiche Experimente über verschiedene Visual Question Answering (VQA)- und Beschriftungsaufgaben sowohl für Bilder als auch für Videos demonstrieren, dass unser Modell state-of-the-art visuelles Verständnis und multimodale Fähigkeiten zur Schlussfolgerung aufweist. Bemerkenswerterweise erreicht unsere Methode diese Fortschritte mit 30~70 % weniger Parametern als die state-of-the-art großen Vision-Sprache-Modelle, was eine signifikante Effizienzsteigerung darstellt.
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.