Wissensübertragung zwischen Modalitäten mit natürlicher Sprachaufsicht
Knowledge Transfer Across Modalities with Natural Language Supervision
November 23, 2024
Autoren: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
cs.AI
Zusammenfassung
Wir präsentieren eine Methode, um neue Konzepte nur anhand ihrer textuellen Beschreibung zu erlernen. Wir nennen diese Methode Wissenstransfer. Ähnlich wie bei der menschlichen Wahrnehmung nutzen wir die cross-modale Interaktion, um neue Konzepte einzuführen. Wir vermuten, dass in einem vorab trainierten visuellen Encoder bereits genügend niedrigstufige Merkmale gelernt wurden (z. B. Form, Erscheinung, Farbe), die verwendet werden können, um zuvor unbekannte hochstufige Konzepte zu beschreiben. Mit einer textuellen Beschreibung des neuen Konzepts funktioniert unsere Methode, indem sie die bekannten niedrigstufigen Merkmale des visuellen Encoders mit seiner hochstufigen textuellen Beschreibung abgleicht. Wir zeigen, dass der Wissenstransfer erfolgreich neue Konzepte in multimodalen Modellen auf sehr effiziente Weise einführen kann, indem nur eine Beschreibung des Zielkonzepts erforderlich ist. Unser Ansatz ist kompatibel sowohl mit separaten textuellen und visuellen Encodern (z. B. CLIP) als auch mit gemeinsamen Parametern über Modalitäten hinweg. Wir zeigen auch, dass der Wissenstransfer nach dem gleichen Prinzip Konzepte verbessern kann, die dem Modell bereits bekannt sind. Durch den Einsatz des Wissenstransfers verbessern wir die Null-Schuss-Performance über verschiedene Aufgaben hinweg, wie Klassifizierung, Segmentierung, Bild-Text-Retrieval und Bildunterschriften.
English
We present a way to learn novel concepts by only using their textual
description. We call this method Knowledge Transfer. Similarly to human
perception, we leverage cross-modal interaction to introduce new concepts. We
hypothesize that in a pre-trained visual encoder there are enough low-level
features already learned (e.g. shape, appearance, color) that can be used to
describe previously unknown high-level concepts. Provided with a textual
description of the novel concept, our method works by aligning the known
low-level features of the visual encoder to its high-level textual description.
We show that Knowledge Transfer can successfully introduce novel concepts in
multimodal models, in a very efficient manner, by only requiring a single
description of the target concept. Our approach is compatible with both
separate textual and visual encoders (e.g. CLIP) and shared parameters across
modalities. We also show that, following the same principle, Knowledge Transfer
can improve concepts already known by the model. Leveraging Knowledge Transfer
we improve zero-shot performance across different tasks such as classification,
segmentation, image-text retrieval, and captioning.Summary
AI-Generated Summary