COLA: Come adattare i modelli visione-linguaggio per comporre oggetti localizzati con attributi?
COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?
May 5, 2023
Autori: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI
Abstract
Il ragionamento compositivo è una caratteristica distintiva dell'intelligenza visiva umana; tuttavia, nonostante le dimensioni dei grandi modelli visione-linguaggio, questi faticano a rappresentare semplici composizioni combinando oggetti con i loro attributi. Per misurare questa mancanza di capacità compositiva, progettiamo Cola, un benchmark di recupero testo-immagine per Comporre Oggetti Localizzati con Attributi. Utilizzando Cola come banco di prova, esploriamo progetti di modellizzazione per adattare modelli visione-linguaggio pre-addestrati a ragionare in modo compositivo su più attributi associati a più oggetti. Esploriamo 6 strategie di fine-tuning su 2 modelli visione-linguaggio fondamentali, utilizzando 3 dataset di fine-tuning e 2 benchmark di test (Cola e CREPE). Sorprendentemente, la nostra strategia ottimale di fine-tuning migliora un CLIP da 151M di parametri, che codifica in modo disgiunto immagini e linguaggio durante il pre-addestramento, fino a ottenere prestazioni pari a quelle di un FLAVA da 241M di parametri, che utilizza un encoder trasformatore multimodale durante il pre-addestramento per considerare entrambe le modalità visiva e linguistica. Questa strategia ottimale di fine-tuning è un adattatore multimodale leggero che considera congiuntamente sia le caratteristiche dell'immagine che quelle del linguaggio generate dal modello pre-addestrato. Dimostriamo che questo approccio funziona meglio rispetto a strategie comuni come il prompt/fine-tuning o il tuning di un numero comparabile di livelli unimodali.
English
Compositional reasoning is a hallmark of human visual intelligence; yet
despite the size of large vision-language models, they struggle to represent
simple compositions by combining objects with their attributes. To measure this
lack of compositional capability, we design Cola, a text-to-image retrieval
benchmark to Compose Objects Localized with Attributes. Using Cola as a
testbed, we explore modeling designs to adapt pre-trained vision-language
models to reason compositionally about multiple attributes attached to multiple
objects. We explore 6 finetuning strategies on 2 seminal vision-language
models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE).
Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP,
which disjointly encodes image and language during pretraining, to perform as
well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder
during pretraining to attend over both vision and language modalities. This
optimal finetuning strategy is a lightweight multi-modal adapter that jointly
attends over both image and language features generated by the pretrained
model. We show this works better than common strategies such as
prompt/fine-tuning, or tuning a comparable number of unimodal layers.