Het verbeteren van gedetailleerd begrip in beeld-tekst voorafgaande training

Samenvatting

We introduceren SPARse Fine-grained Contrastive Alignment (SPARC), een eenvoudige methode voor het vooraf trainen van meer fijnmazige multimodale representaties uit beeld-tekstparen. Gezien het feit dat meerdere beeldpatches vaak overeenkomen met enkele woorden, stellen we voor om een groepering van beeldpatches te leren voor elk token in de bijschrift. Om dit te bereiken, gebruiken we een sparse similariteitsmetriek tussen beeldpatches en taaltokens en berekenen we voor elk token een taal-gegroepeerde visuele embedding als het gewogen gemiddelde van patches. De token en taal-gegroepeerde visuele embeddings worden vervolgens gecontrasteerd door een fijnmazig sequentiegewijs verlies dat alleen afhangt van individuele samples en geen andere batchsamples als negatieven vereist. Hierdoor kan gedetailleerdere informatie op een computationeel efficiënte manier worden geleerd. SPARC combineert dit fijnmazige verlies met een contrastief verlies tussen globale beeld- en tekstembeddings om representaties te leren die tegelijkertijd globale en lokale informatie coderen. We evalueren onze voorgestelde methode grondig en tonen verbeterde prestaties aan ten opzichte van concurrerende benaderingen, zowel op beeldniveau taken die afhankelijk zijn van grofmazige informatie, zoals classificatie, als op regioniveau taken die afhankelijk zijn van fijnmazige informatie, zoals retrieval, objectdetectie en segmentatie. Bovendien verbetert SPARC de betrouwbaarheid van modellen en de bijschrijving in fundamentele visie-taalmodellen.

English

We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple method for pretraining more fine-grained multimodal representations from image-text pairs. Given that multiple image patches often correspond to single words, we propose to learn a grouping of image patches for every token in the caption. To achieve this, we use a sparse similarity metric between image patches and language tokens and compute for each token a language-grouped vision embedding as the weighted average of patches. The token and language-grouped vision embeddings are then contrasted through a fine-grained sequence-wise loss that only depends on individual samples and does not require other batch samples as negatives. This enables more detailed information to be learned in a computationally inexpensive manner. SPARC combines this fine-grained loss with a contrastive loss between global image and text embeddings to learn representations that simultaneously encode global and local information. We thoroughly evaluate our proposed method and show improved performance over competing approaches both on image-level tasks relying on coarse-grained information, e.g. classification, as well as region-level tasks relying on fine-grained information, e.g. retrieval, object detection, and segmentation. Moreover, SPARC improves model faithfulness and captioning in foundational vision-language models.

Het verbeteren van gedetailleerd begrip in beeld-tekst voorafgaande training

Improving fine-grained understanding in image-text pre-training

Samenvatting

Support