PaLM2-VAdapter: Modello Linguistico Progressivamente Allineato Come Adattatore Visivo-Linguistico Potente
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
Autori: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
Abstract
Questo articolo dimostra che un modello linguistico progressivamente allineato può efficacemente collegare encoder visivi congelati e grandi modelli linguistici (LLM). Mentre l'architettura fondamentale e i metodi di pre-addestramento degli encoder visivi e degli LLM sono stati ampiamente studiati, l'architettura e la strategia di addestramento degli adattatori visione-linguaggio variano significativamente tra i lavori recenti. La nostra ricerca intraprende un'esplorazione approfondita dell'architettura all'avanguardia del perceiver resampler e costruisce una solida baseline. Tuttavia, osserviamo che l'allineamento visione-linguaggio con il perceiver resampler mostra una convergenza lenta e una scalabilità limitata, con una mancanza di supervisione diretta. Per affrontare questo problema, proponiamo PaLM2-VAdapter, che impiega un modello linguistico progressivamente allineato come adattatore visione-linguaggio. Rispetto alla solida baseline con perceiver resampler, il nostro metodo mostra empiricamente una convergenza più rapida, prestazioni superiori e una scalabilità più forte. Esperimenti estesi su vari compiti di Visual Question Answering (VQA) e di generazione di didascalie, sia su immagini che su video, dimostrano che il nostro modello possiede capacità di comprensione visiva e ragionamento multimodale all'avanguardia. In particolare, il nostro metodo raggiunge questi progressi con il 30~70% in meno di parametri rispetto ai grandi modelli visione-linguaggio all'avanguardia, segnando un significativo miglioramento in termini di efficienza.
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.