COLA: Как адаптировать модели "визуальный язык" для компоновки объектов, локализованных с помощью атрибутов?
COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?
May 5, 2023
Авторы: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI
Аннотация
Композиционное мышление является отличительной чертой человеческого визуального интеллекта; однако, несмотря на размер крупных моделей, работающих с визуальными и языковыми данными, они испытывают трудности с представлением простых композиций, сочетающих объекты с их атрибутами. Чтобы измерить этот недостаток композиционных способностей, мы разработали Cola — эталонный тест для поиска изображений по тексту, предназначенный для композиции объектов, локализованных с атрибутами. Используя Cola в качестве тестовой платформы, мы исследуем подходы к адаптации предобученных моделей, работающих с визуальными и языковыми данными, для композиционного рассуждения о множестве атрибутов, связанных с несколькими объектами. Мы исследуем 6 стратегий дообучения для двух ключевых моделей, работающих с визуальными и языковыми данными, используя 3 набора данных для дообучения и 2 тестовых эталона (Cola и CREPE). Удивительно, но наша оптимальная стратегия дообучения позволяет модели CLIP с 151 миллионом параметров, которая раздельно кодирует изображения и текст на этапе предобучения, достичь результатов, сопоставимых с моделью FLAVA, содержащей 241 миллион параметров и использующей мультимодальный трансформер для одновременного анализа визуальных и языковых данных на этапе предобучения. Эта оптимальная стратегия дообучения представляет собой легковесный мультимодальный адаптер, который совместно анализирует признаки изображений и текста, сгенерированные предобученной моделью. Мы показываем, что этот подход работает лучше, чем распространенные стратегии, такие как настройка промптов/дообучение или настройка сопоставимого количества одномодальных слоев.
English
Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.