ChatPaper.aiChatPaper

Transfert de Connaissances entre Modalités avec Supervision en Langage Naturel

Knowledge Transfer Across Modalities with Natural Language Supervision

November 23, 2024
Auteurs: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
cs.AI

Résumé

Nous présentons une méthode pour apprendre de nouveaux concepts en utilisant uniquement leur description textuelle. Nous appelons cette méthode Transfert de Connaissances. De manière similaire à la perception humaine, nous exploitons l'interaction multimodale pour introduire de nouveaux concepts. Nous émettons l'hypothèse qu'un codeur visuel pré-entraîné contient suffisamment de caractéristiques de bas niveau déjà apprises (par exemple, forme, apparence, couleur) qui peuvent être utilisées pour décrire des concepts de haut niveau inconnus. En fournissant une description textuelle du concept nouveau, notre méthode fonctionne en alignant les caractéristiques de bas niveau connues du codeur visuel sur sa description textuelle de haut niveau. Nous montrons que le Transfert de Connaissances peut introduire avec succès de nouveaux concepts dans des modèles multimodaux, de manière très efficace, en ne nécessitant qu'une seule description du concept cible. Notre approche est compatible à la fois avec des codeurs textuels et visuels séparés (par exemple, CLIP) et des paramètres partagés entre les modalités. Nous montrons également que, en suivant le même principe, le Transfert de Connaissances peut améliorer les concepts déjà connus par le modèle. En exploitant le Transfert de Connaissances, nous améliorons les performances en zéro-shot sur différentes tâches telles que la classification, la segmentation, la recherche d'images-texte et la légende.
English
We present a way to learn novel concepts by only using their textual description. We call this method Knowledge Transfer. Similarly to human perception, we leverage cross-modal interaction to introduce new concepts. We hypothesize that in a pre-trained visual encoder there are enough low-level features already learned (e.g. shape, appearance, color) that can be used to describe previously unknown high-level concepts. Provided with a textual description of the novel concept, our method works by aligning the known low-level features of the visual encoder to its high-level textual description. We show that Knowledge Transfer can successfully introduce novel concepts in multimodal models, in a very efficient manner, by only requiring a single description of the target concept. Our approach is compatible with both separate textual and visual encoders (e.g. CLIP) and shared parameters across modalities. We also show that, following the same principle, Knowledge Transfer can improve concepts already known by the model. Leveraging Knowledge Transfer we improve zero-shot performance across different tasks such as classification, segmentation, image-text retrieval, and captioning.

Summary

AI-Generated Summary

PDF173November 26, 2024