ChatPaper.aiChatPaper

COLA: Wie können Vision-Sprache-Modelle angepasst werden, um Objekte mit Attributen lokalisiert zu komponieren?

COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?

May 5, 2023
Autoren: Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna, Kate Saenko
cs.AI

Zusammenfassung

Kompositionelles Denken ist ein Kennzeichen der menschlichen visuellen Intelligenz; dennoch haben große Vision-Sprache-Modelle trotz ihrer Größe Schwierigkeiten, einfache Kompositionen darzustellen, indem sie Objekte mit ihren Attributen kombinieren. Um diesen Mangel an kompositioneller Fähigkeit zu messen, entwickeln wir Cola, einen Text-zu-Bild-Retrieval-Benchmark, um Objekte mit lokalisierten Attributen zu komponieren. Mit Cola als Testumgebung untersuchen wir Modellierungsansätze, um vortrainierte Vision-Sprache-Modelle so anzupassen, dass sie kompositionell über mehrere Attribute, die mehreren Objekten zugeordnet sind, schlussfolgern können. Wir untersuchen 6 Feinabstimmungsstrategien für 2 wegweisende Vision-Sprache-Modelle, wobei wir 3 Feinabstimmungsdatensätze und 2 Testbenchmarks (Cola und CREPE) verwenden. Überraschenderweise verbessert unsere optimale Feinabstimmungsstrategie ein 151M-Parameter-CLIP-Modell, das während des Vortrainings Bild und Sprache getrennt kodiert, so dass es genauso gut abschneidet wie ein 241M-Parameter-FLAVA-Modell, das während des Vortrainings einen multimodalen Transformer-Encoder verwendet, um sowohl visuelle als auch sprachliche Modalitäten zu berücksichtigen. Diese optimale Feinabstimmungsstrategie ist ein leichtgewichtiger multimodaler Adapter, der gemeinsam sowohl Bild- als auch Sprachmerkmale berücksichtigt, die vom vortrainierten Modell erzeugt werden. Wir zeigen, dass dies besser funktioniert als gängige Strategien wie Prompting/Feinabstimmung oder die Abstimmung einer vergleichbaren Anzahl von unimodalen Schichten.
English
Compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes. To measure this lack of compositional capability, we design Cola, a text-to-image retrieval benchmark to Compose Objects Localized with Attributes. Using Cola as a testbed, we explore modeling designs to adapt pre-trained vision-language models to reason compositionally about multiple attributes attached to multiple objects. We explore 6 finetuning strategies on 2 seminal vision-language models, using 3 finetuning datasets and 2 test benchmarks (Cola and CREPE). Surprisingly, our optimal finetuning strategy improves a 151M parameter CLIP, which disjointly encodes image and language during pretraining, to perform as well as a 241M parameter FLAVA, which uses a multi-modal transformer encoder during pretraining to attend over both vision and language modalities. This optimal finetuning strategy is a lightweight multi-modal adapter that jointly attends over both image and language features generated by the pretrained model. We show this works better than common strategies such as prompt/fine-tuning, or tuning a comparable number of unimodal layers.
PDF21December 15, 2024