COLA: Hoe kunnen visie-taalmodellen worden aangepast om objecten met attributen te lokaliseren en samen te stellen?

Samenvatting

Compositioneel redeneren is een kenmerk van menselijke visuele intelligentie; toch hebben grote vision-language modellen, ondanks hun omvang, moeite met het weergeven van eenvoudige composities door objecten met hun attributen te combineren. Om dit gebrek aan compositionele vaardigheid te meten, ontwikkelen we Cola, een text-to-image retrieval benchmark om Objecten Gelokaliseerd met Attributen te Componeren. Met Cola als testomgeving onderzoeken we modelontwerpen om vooraf getrainde vision-language modellen aan te passen voor compositioneel redeneren over meerdere attributen die aan meerdere objecten zijn gekoppeld. We onderzoeken 6 finetuning-strategieën op 2 baanbrekende vision-language modellen, waarbij we gebruikmaken van 3 finetuning-datasets en 2 testbenchmarks (Cola en CREPE). Verrassend genoeg verbetert onze optimale finetuning-strategie een CLIP-model met 151M parameters, dat tijdens de pretraining beeld en taal gescheiden encodeert, zodat het even goed presteert als een FLAVA-model met 241M parameters, dat tijdens de pretraining een multimodale transformercoder gebruikt om aandacht te besteden aan zowel visuele als talige modaliteiten. Deze optimale finetuning-strategie is een lichtgewicht multimodale adapter die gezamenlijk aandacht besteedt aan zowel beeld- als taalgegenereerde kenmerken door het vooraf getrainde model. We laten zien dat dit beter werkt dan veelgebruikte strategieën zoals prompt/finetuning of het afstemmen van een vergelijkbaar aantal unimodale lagen.

English

Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers.

COLA: Hoe kunnen visie-taalmodellen worden aangepast om objecten met attributen te lokaliseren en samen te stellen?

COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?

Samenvatting

Support