ChatPaper.aiChatPaper

COLA: ¿Cómo adaptar modelos de visión y lenguaje para componer objetos localizados con atributos?

COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?

May 5, 2023
Autores: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI

Resumen

El razonamiento composicional es una característica distintiva de la inteligencia visual humana; sin embargo, a pesar del tamaño de los grandes modelos de visión y lenguaje, estos tienen dificultades para representar composiciones simples al combinar objetos con sus atributos. Para medir esta falta de capacidad composicional, diseñamos Cola, un punto de referencia de recuperación de imágenes a partir de texto para Componer Objetos Localizados con Atributos. Utilizando Cola como banco de pruebas, exploramos diseños de modelado para adaptar modelos preentrenados de visión y lenguaje a razonar composicionalmente sobre múltiples atributos asociados a múltiples objetos. Exploramos 6 estrategias de ajuste fino en 2 modelos fundamentales de visión y lenguaje, utilizando 3 conjuntos de datos de ajuste fino y 2 puntos de referencia de prueba (Cola y CREPE). Sorprendentemente, nuestra estrategia óptima de ajuste fino mejora un modelo CLIP de 151M parámetros, que codifica de manera disjunta imágenes y lenguaje durante el preentrenamiento, para que tenga un rendimiento similar al de un modelo FLAVA de 241M parámetros, que utiliza un codificador transformador multimodal durante el preentrenamiento para atender tanto a las modalidades de visión como de lenguaje. Esta estrategia óptima de ajuste fino es un adaptador multimodal ligero que atiende conjuntamente tanto a las características de imagen como de lenguaje generadas por el modelo preentrenado. Demostramos que esto funciona mejor que estrategias comunes como el ajuste de indicaciones/ajuste fino, o el ajuste de un número comparable de capas unimodales.
English
Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers.
PDF21December 15, 2024