COLA: Como adaptar modelos visão-linguagem para Compor Objetos Localizados com Atributos?

Resumo

O raciocínio composicional é uma característica marcante da inteligência visual humana; no entanto, apesar do tamanho dos grandes modelos de visão e linguagem, eles têm dificuldade em representar composições simples ao combinar objetos com seus atributos. Para medir essa falta de capacidade composicional, projetamos o Cola, um benchmark de recuperação de texto para imagem para Compor Objetos Localizados com Atributos. Usando o Cola como plataforma de teste, exploramos designs de modelagem para adaptar modelos de visão e linguagem pré-treinados a raciocinar composicionalmente sobre múltiplos atributos associados a múltiplos objetos. Exploramos 6 estratégias de ajuste fino em 2 modelos fundamentais de visão e linguagem, utilizando 3 conjuntos de dados de ajuste fino e 2 benchmarks de teste (Cola e CREPE). Surpreendentemente, nossa estratégia ótima de ajuste fino melhora um CLIP com 151 milhões de parâmetros, que codifica imagem e linguagem de forma disjunta durante o pré-treinamento, para desempenhar tão bem quanto um FLAVA com 241 milhões de parâmetros, que usa um codificador transformador multimodal durante o pré-treinamento para atender a ambas as modalidades de visão e linguagem. Essa estratégia ótima de ajuste fino é um adaptador multimodal leve que atende conjuntamente às características de imagem e linguagem geradas pelo modelo pré-treinado. Mostramos que isso funciona melhor do que estratégias comuns, como ajuste de prompt/ajuste fino ou ajuste de um número comparável de camadas unimodais.

English

Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers.

COLA: Como adaptar modelos visão-linguagem para Compor Objetos Localizados com Atributos?

COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?

Resumo

Support