ChatPaper.aiChatPaper

PaLM2-VAdapter: Прогрессивно выровненная языковая модель как мощный адаптер для взаимодействия зрения и языка

PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

February 16, 2024
Авторы: Junfei Xiao, Zheng Xu, Alan Yuille, Shen Yan, Boyu Wang
cs.AI

Аннотация

В данной работе демонстрируется, что прогрессивно выровненная языковая модель может эффективно связывать замороженные визуальные кодировщики и крупные языковые модели (LLM). Хотя фундаментальная архитектура и методы предварительного обучения визуальных кодировщиков и LLM были тщательно изучены, архитектура и стратегии обучения адаптеров для связи визуальных и языковых данных значительно различаются в последних исследованиях. Наша работа проводит глубокое исследование современной архитектуры воспринимающего ресемплера и создает надежный базовый уровень. Однако мы наблюдаем, что выравнивание визуальных и языковых данных с использованием воспринимающего ресемплера демонстрирует медленную сходимость и ограниченную масштабируемость при отсутствии прямого контроля. Для решения этой проблемы мы предлагаем PaLM2-VAdapter, использующий прогрессивно выровненную языковую модель в качестве адаптера для связи визуальных и языковых данных. По сравнению с сильным базовым уровнем с воспринимающим ресемплером, наш метод эмпирически показывает более быструю сходимость, более высокую производительность и улучшенную масштабируемость. Многочисленные эксперименты на различных задачах визуального ответа на вопросы (VQA) и генерации подписей для изображений и видео демонстрируют, что наша модель обладает современными возможностями визуального понимания и мультимодального рассуждения. Примечательно, что наш метод достигает этих результатов с использованием на 30~70% меньшего количества параметров по сравнению с современными крупными моделями для связи визуальных и языковых данных, что свидетельствует о значительном улучшении эффективности.
English
This paper demonstrates that a progressively aligned language model can effectively bridge frozen vision encoders and large language models (LLMs). While the fundamental architecture and pre-training methods of vision encoders and LLMs have been extensively studied, the architecture and training strategy of vision-language adapters vary significantly across recent works. Our research undertakes a thorough exploration of the state-of-the-art perceiver resampler architecture and builds a strong baseline. However, we observe that the vision-language alignment with perceiver resampler exhibits slow convergence and limited scalability with a lack of direct supervision. To address this issue, we propose PaLM2-VAdapter, employing a progressively aligned language model as the vision-language adapter. Compared to the strong baseline with perceiver resampler, our method empirically shows faster convergence, higher performance, and stronger scalability. Extensive experiments across various Visual Question Answering (VQA) and captioning tasks on both images and videos demonstrate that our model exhibits state-of-the-art visual understanding and multi-modal reasoning capabilities. Notably, our method achieves these advancements with 30~70% fewer parameters than the state-of-the-art large vision-language models, marking a significant efficiency improvement.

Summary

AI-Generated Summary

PDF162December 15, 2024