ChatPaper.aiChatPaper

Melhorando a compreensão detalhada no pré-treinamento de imagem-texto

Improving fine-grained understanding in image-text pre-training

January 18, 2024
Autores: Ioana Bica, Anastasija Ilić, Matthias Bauer, Goker Erdogan, Matko Bošnjak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrović
cs.AI

Resumo

Apresentamos o SPARse Fine-grained Contrastive Alignment (SPARC), um método simples para pré-treinar representações multimodais mais refinadas a partir de pares imagem-texto. Considerando que múltiplos fragmentos de imagem frequentemente correspondem a palavras individuais, propomos aprender um agrupamento de fragmentos de imagem para cada token na legenda. Para alcançar isso, utilizamos uma métrica de similaridade esparsa entre fragmentos de imagem e tokens de linguagem e calculamos, para cada token, um embedding visual agrupado por linguagem como a média ponderada dos fragmentos. Os embeddings do token e os embeddings visuais agrupados por linguagem são então contrastados por meio de uma perda sequencial refinada que depende apenas de amostras individuais e não requer outras amostras do lote como negativos. Isso permite que informações mais detalhadas sejam aprendidas de forma computacionalmente eficiente. O SPARC combina essa perda refinada com uma perda contrastiva entre embeddings globais de imagem e texto para aprender representações que codificam simultaneamente informações globais e locais. Avaliamos minuciosamente nosso método proposto e demonstramos um desempenho superior em relação às abordagens concorrentes, tanto em tarefas de nível de imagem que dependem de informações de baixa granularidade, como classificação, quanto em tarefas de nível de região que dependem de informações refinadas, como recuperação, detecção de objetos e segmentação. Além disso, o SPARC melhora a fidelidade do modelo e a geração de legendas em modelos fundamentais de visão e linguagem.
English
We introduce SPARse Fine-grained Contrastive Alignment (SPARC), a simple method for pretraining more fine-grained multimodal representations from image-text pairs. Given that multiple image patches often correspond to single words, we propose to learn a grouping of image patches for every token in the caption. To achieve this, we use a sparse similarity metric between image patches and language tokens and compute for each token a language-grouped vision embedding as the weighted average of patches. The token and language-grouped vision embeddings are then contrasted through a fine-grained sequence-wise loss that only depends on individual samples and does not require other batch samples as negatives. This enables more detailed information to be learned in a computationally inexpensive manner. SPARC combines this fine-grained loss with a contrastive loss between global image and text embeddings to learn representations that simultaneously encode global and local information. We thoroughly evaluate our proposed method and show improved performance over competing approaches both on image-level tasks relying on coarse-grained information, e.g. classification, as well as region-level tasks relying on fine-grained information, e.g. retrieval, object detection, and segmentation. Moreover, SPARC improves model faithfulness and captioning in foundational vision-language models.
PDF181December 15, 2024