PaLM2-VAdapter: Modelo de Lenguaje Alineado Progresivamente Conforma un Adaptador Fuerte para Visión y Lenguaje
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter
February 16, 2024
Autores: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI
Resumen
Este artículo demuestra que un modelo de lenguaje progresivamente alineado puede efectivamente conectar codificadores de visión congelados y modelos de lenguaje grandes (LLMs). Si bien la arquitectura fundamental y los métodos de pre-entrenamiento de los codificadores de visión y los LLMs han sido ampliamente estudiados, la arquitectura y la estrategia de entrenamiento de los adaptadores visión-lenguaje varían significativamente en trabajos recientes. Nuestra investigación realiza una exploración exhaustiva de la arquitectura de resampling de perceiver de última generación y establece una línea base sólida. Sin embargo, observamos que la alineación visión-lenguaje con el resampler de perceiver muestra una convergencia lenta y una escalabilidad limitada, junto con una falta de supervisión directa. Para abordar este problema, proponemos PaLM2-VAdapter, que emplea un modelo de lenguaje progresivamente alineado como adaptador visión-lenguaje. En comparación con la línea base sólida que utiliza el resampler de perceiver, nuestro método muestra empíricamente una convergencia más rápida, un mayor rendimiento y una escalabilidad más robusta. Experimentos extensos en diversas tareas de Respuesta a Preguntas Visuales (VQA) y generación de descripciones, tanto en imágenes como en videos, demuestran que nuestro modelo exhibe capacidades de comprensión visual y razonamiento multimodal de última generación. Notablemente, nuestro método logra estos avances con un 30~70% menos de parámetros que los modelos grandes visión-lenguaje de última generación, marcando una mejora significativa en eficiencia.
English
This paper demonstrates that a progressively aligned language model can
effectively bridge frozen vision encoders and large language models (LLMs).
While the fundamental architecture and pre-training methods of vision encoders
and LLMs have been extensively studied, the architecture and training strategy
of vision-language adapters vary significantly across recent works. Our
research undertakes a thorough exploration of the state-of-the-art perceiver
resampler architecture and builds a strong baseline. However, we observe that
the vision-language alignment with perceiver resampler exhibits slow
convergence and limited scalability with a lack of direct supervision. To
address this issue, we propose PaLM2-VAdapter, employing a progressively
aligned language model as the vision-language adapter. Compared to the strong
baseline with perceiver resampler, our method empirically shows faster
convergence, higher performance, and stronger scalability. Extensive
experiments across various Visual Question Answering (VQA) and captioning tasks
on both images and videos demonstrate that our model exhibits state-of-the-art
visual understanding and multi-modal reasoning capabilities. Notably, our
method achieves these advancements with 30~70% fewer parameters than the
state-of-the-art large vision-language models, marking a significant efficiency
improvement.Summary
AI-Generated Summary