ChatPaper.aiChatPaper

PaLM2-VAdapter: Modelo de Linguagem Progressivamente Alinhado como um Adaptador Forte para Visão e Linguagem

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

February 16, 2024
Autores: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI

Resumo

Este artigo demonstra que um modelo de linguagem progressivamente alinhado pode efetivamente conectar codificadores de visão congelados e grandes modelos de linguagem (LLMs). Embora a arquitetura fundamental e os métodos de pré-treinamento dos codificadores de visão e dos LLMs tenham sido extensivamente estudados, a arquitetura e a estratégia de treinamento dos adaptadores visão-linguagem variam significativamente entre os trabalhos recentes. Nossa pesquisa realiza uma exploração detalhada da arquitetura de estado da arte do perceiver resampler e estabelece uma forte linha de base. No entanto, observamos que o alinhamento visão-linguagem com o perceiver resampler apresenta convergência lenta e escalabilidade limitada, com falta de supervisão direta. Para abordar esse problema, propomos o PaLM2-VAdapter, empregando um modelo de linguagem progressivamente alinhado como o adaptador visão-linguagem. Em comparação com a forte linha de base que utiliza o perceiver resampler, nosso método demonstra empiricamente convergência mais rápida, maior desempenho e escalabilidade mais robusta. Experimentos extensivos em várias tarefas de Resposta a Perguntas Visuais (VQA) e legendagem em imagens e vídeos mostram que nosso modelo exibe capacidades de compreensão visual e raciocínio multimodal de estado da arte. Notavelmente, nosso método alcança esses avanços com 30~70% menos parâmetros do que os grandes modelos visão-linguagem de estado da arte, marcando uma melhoria significativa em eficiência.
English
This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.
PDF162February 8, 2026