ChatPaper.aiChatPaper

Wissensübertragung zwischen Modalitäten mit natürlicher Sprachaufsicht

Knowledge Transfer Across Modalities with Natural Language Supervision

November 23, 2024
Autoren: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
cs.AI

Zusammenfassung

Wir präsentieren eine Methode, um neue Konzepte nur anhand ihrer textuellen Beschreibung zu erlernen. Wir nennen diese Methode Wissenstransfer. Ähnlich wie bei der menschlichen Wahrnehmung nutzen wir die cross-modale Interaktion, um neue Konzepte einzuführen. Wir vermuten, dass in einem vorab trainierten visuellen Encoder bereits genügend niedrigstufige Merkmale gelernt wurden (z. B. Form, Erscheinung, Farbe), die verwendet werden können, um zuvor unbekannte hochstufige Konzepte zu beschreiben. Mit einer textuellen Beschreibung des neuen Konzepts funktioniert unsere Methode, indem sie die bekannten niedrigstufigen Merkmale des visuellen Encoders mit seiner hochstufigen textuellen Beschreibung abgleicht. Wir zeigen, dass der Wissenstransfer erfolgreich neue Konzepte in multimodalen Modellen auf sehr effiziente Weise einführen kann, indem nur eine Beschreibung des Zielkonzepts erforderlich ist. Unser Ansatz ist kompatibel sowohl mit separaten textuellen und visuellen Encodern (z. B. CLIP) als auch mit gemeinsamen Parametern über Modalitäten hinweg. Wir zeigen auch, dass der Wissenstransfer nach dem gleichen Prinzip Konzepte verbessern kann, die dem Modell bereits bekannt sind. Durch den Einsatz des Wissenstransfers verbessern wir die Null-Schuss-Performance über verschiedene Aufgaben hinweg, wie Klassifizierung, Segmentierung, Bild-Text-Retrieval und Bildunterschriften.
English
We present a way to learn novel concepts by only using their textual description. We call this method Knowledge Transfer. Similarly to human perception, we leverage cross-modal interaction to introduce new concepts. We hypothesize that in a pre-trained visual encoder there are enough low-level features already learned (e.g. shape, appearance, color) that can be used to describe previously unknown high-level concepts. Provided with a textual description of the novel concept, our method works by aligning the known low-level features of the visual encoder to its high-level textual description. We show that Knowledge Transfer can successfully introduce novel concepts in multimodal models, in a very efficient manner, by only requiring a single description of the target concept. Our approach is compatible with both separate textual and visual encoders (e.g. CLIP) and shared parameters across modalities. We also show that, following the same principle, Knowledge Transfer can improve concepts already known by the model. Leveraging Knowledge Transfer we improve zero-shot performance across different tasks such as classification, segmentation, image-text retrieval, and captioning.

Summary

AI-Generated Summary

PDF173November 26, 2024