ChatPaper.aiChatPaper

Modèles vision-texte à contraste amélioré par la récupération

Retrieval-Enhanced Contrastive Vision-Text Models

June 12, 2023
Auteurs: Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid
cs.AI

Résumé

Les modèles contrastifs image-texte tels que CLIP constituent les éléments de base de nombreux systèmes à la pointe de la technologie. Bien qu'ils excellent à reconnaître des concepts génériques courants, ils peinent encore sur des entités fines qui sont rares, voire absentes du jeu de données de pré-entraînement. Ainsi, un ingrédient clé de leur succès a été l'utilisation de données de pré-entraînement à grande échelle et soigneusement sélectionnées, visant à élargir l'ensemble des concepts qu'ils peuvent mémoriser lors de cette étape. Dans ce travail, nous explorons une alternative à l'encodage direct des connaissances fines dans les paramètres du modèle : nous entraînons plutôt le modèle à récupérer ces connaissances à partir d'une mémoire externe. Plus précisément, nous proposons d'équiper les modèles vision-texte existants de la capacité à affiner leur plongement avec des informations récupérées de manière croisée à partir d'une mémoire au moment de l'inférence, ce qui améliore considérablement leurs prédictions en zero-shot. De manière remarquable, nous montrons que cela peut être réalisé avec un transformateur de fusion léger et monocouche, superposé à un CLIP figé. Nos expériences valident que notre entraînement contrastif amélioré par la récupération (RECO) améliore substantiellement les performances de CLIP sur plusieurs tâches fines et complexes : par exemple, +10,9 sur Stanford Cars, +10,2 sur CUB-2011 et +7,3 sur le récent benchmark OVEN.
English
Contrastive image-text models such as CLIP form the building blocks of many state-of-the-art systems. While they excel at recognizing common generic concepts, they still struggle on fine-grained entities which are rare, or even absent from the pre-training dataset. Hence, a key ingredient to their success has been the use of large-scale curated pre-training data aiming at expanding the set of concepts that they can memorize during the pre-training stage. In this work, we explore an alternative to encoding fine-grained knowledge directly into the model's parameters: we instead train the model to retrieve this knowledge from an external memory. Specifically, we propose to equip existing vision-text models with the ability to refine their embedding with cross-modal retrieved information from a memory at inference time, which greatly improves their zero-shot predictions. Remarkably, we show that this can be done with a light-weight, single-layer, fusion transformer on top of a frozen CLIP. Our experiments validate that our retrieval-enhanced contrastive (RECO) training improves CLIP performance substantially on several challenging fine-grained tasks: for example +10.9 on Stanford Cars, +10.2 on CUB-2011 and +7.3 on the recent OVEN benchmark.
PDF70December 15, 2024