Het verbeteren van gedetailleerd begrip in beeld-tekst voorafgaande training
Improving fine-grained understanding in image-text pre-training
January 18, 2024
Auteurs: Ioana Bica, Anastasija Ilić, Matthias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrović
cs.AI
Samenvatting
We introduceren SPARse Fine-grained Contrastive Alignment (SPARC), een eenvoudige methode voor het vooraf trainen van meer fijnmazige multimodale representaties uit beeld-tekstparen. Gezien het feit dat meerdere beeldpatches vaak overeenkomen met enkele woorden, stellen we voor om een groepering van beeldpatches te leren voor elk token in de bijschrift. Om dit te bereiken, gebruiken we een sparse similariteitsmetriek tussen beeldpatches en taaltokens en berekenen we voor elk token een taal-gegroepeerde visuele embedding als het gewogen gemiddelde van patches. De token en taal-gegroepeerde visuele embeddings worden vervolgens gecontrasteerd door een fijnmazig sequentiegewijs verlies dat alleen afhangt van individuele samples en geen andere batchsamples als negatieven vereist. Hierdoor kan gedetailleerdere informatie op een computationeel efficiënte manier worden geleerd. SPARC combineert dit fijnmazige verlies met een contrastief verlies tussen globale beeld- en tekstembeddings om representaties te leren die tegelijkertijd globale en lokale informatie coderen. We evalueren onze voorgestelde methode grondig en tonen verbeterde prestaties aan ten opzichte van concurrerende benaderingen, zowel op beeldniveau taken die afhankelijk zijn van grofmazige informatie, zoals classificatie, als op regioniveau taken die afhankelijk zijn van fijnmazige informatie, zoals retrieval, objectdetectie en segmentatie. Bovendien verbetert SPARC de betrouwbaarheid van modellen en de bijschrijving in fundamentele visie-taalmodellen.
English
We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple
method for pretraining more fine-grained multimodal representations from
image-text pairs. Given that multiple image patches often correspond to single
words, we propose to learn a grouping of image patches for every token in the
caption. To achieve this, we use a sparse similarity metric between image
patches and language tokens and compute for each token a language-grouped
vision embedding as the weighted average of patches. The token and
language-grouped vision embeddings are then contrasted through a fine-grained
sequence-wise loss that only depends on individual samples and does not require
other batch samples as negatives. This enables more detailed information to be
learned in a computationally inexpensive manner. SPARC combines this
fine-grained loss with a contrastive loss between global image and text
embeddings to learn representations that simultaneously encode global and local
information. We thoroughly evaluate our proposed method and show improved
performance over competing approaches both on image-level tasks relying on
coarse-grained information, e.g. classification, as well as region-level tasks
relying on fine-grained information, e.g. retrieval, object detection, and
segmentation. Moreover, SPARC improves model faithfulness and captioning in
foundational vision-language models.