COLA : Comment adapter les modèles vision-langage pour composer des objets localisés avec des attributs ?
COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?
May 5, 2023
Auteurs: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI
Résumé
Le raisonnement compositionnel est une caractéristique essentielle de l'intelligence visuelle humaine ; pourtant, malgré la taille des grands modèles vision-langage, ceux-ci peinent à représenter des compositions simples en combinant des objets avec leurs attributs. Pour mesurer ce manque de capacité compositionnelle, nous concevons Cola, un benchmark de recherche d'images à partir de texte pour Composer des Objets Localisés avec des Attributs. En utilisant Cola comme banc d'essai, nous explorons des architectures de modélisation pour adapter des modèles vision-langage pré-entraînés à raisonner de manière compositionnelle sur plusieurs attributs associés à plusieurs objets. Nous explorons 6 stratégies de fine-tuning sur 2 modèles vision-langage fondamentaux, en utilisant 3 jeux de données de fine-tuning et 2 benchmarks de test (Cola et CREPE). Étonnamment, notre stratégie de fine-tuning optimale améliore un modèle CLIP de 151 millions de paramètres, qui encode disjointement l'image et le langage lors du pré-entraînement, à performer aussi bien qu'un modèle FLAVA de 241 millions de paramètres, qui utilise un encodeur transformer multimodal pendant le pré-entraînement pour traiter à la fois les modalités visuelles et linguistiques. Cette stratégie de fine-tuning optimale est un adaptateur multimodal léger qui traite conjointement les caractéristiques de l'image et du langage générées par le modèle pré-entraîné. Nous montrons que cela fonctionne mieux que les stratégies courantes telles que l'ajustement par prompt/fine-tuning, ou le réglage d'un nombre comparable de couches unimodales.
English
Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.