COLA: Hoe kunnen visie-taalmodellen worden aangepast om objecten met attributen te lokaliseren en samen te stellen?
COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?
May 5, 2023
Auteurs: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI
Samenvatting
Compositioneel redeneren is een kenmerk van menselijke visuele intelligentie; toch hebben grote vision-language modellen, ondanks hun omvang, moeite met het weergeven van eenvoudige composities door objecten met hun attributen te combineren. Om dit gebrek aan compositionele vaardigheid te meten, ontwikkelen we Cola, een text-to-image retrieval benchmark om Objecten Gelokaliseerd met Attributen te Componeren. Met Cola als testomgeving onderzoeken we modelontwerpen om vooraf getrainde vision-language modellen aan te passen voor compositioneel redeneren over meerdere attributen die aan meerdere objecten zijn gekoppeld. We onderzoeken 6 finetuning-strategieën op 2 baanbrekende vision-language modellen, waarbij we gebruikmaken van 3 finetuning-datasets en 2 testbenchmarks (Cola en CREPE). Verrassend genoeg verbetert onze optimale finetuning-strategie een CLIP-model met 151M parameters, dat tijdens de pretraining beeld en taal gescheiden encodeert, zodat het even goed presteert als een FLAVA-model met 241M parameters, dat tijdens de pretraining een multimodale transformercoder gebruikt om aandacht te besteden aan zowel visuele als talige modaliteiten. Deze optimale finetuning-strategie is een lichtgewicht multimodale adapter die gezamenlijk aandacht besteedt aan zowel beeld- als taalgegenereerde kenmerken door het vooraf getrainde model. We laten zien dat dit beter werkt dan veelgebruikte strategieën zoals prompt/finetuning of het afstemmen van een vergelijkbaar aantal unimodale lagen.
English
Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.