ChatPaper.aiChatPaper

自然言語監督によるモダリティ間の知識転送

Knowledge Transfer Across Modalities with Natural Language Supervision

November 23, 2024
著者: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
cs.AI

要旨

我々は、新しい概念を学習する方法を提示しますが、その際にはそのテキスト記述のみを使用します。この方法を「知識転送」と呼びます。人間の知覚と同様に、新しい概念を導入するためにクロスモーダル相互作用を活用しています。我々は、事前に訓練されたビジュアルエンコーダには、既に学習された十分な低レベルの特徴(例:形状、外観、色)が存在し、これらを使用して以前に知られていなかった高レベルの概念を記述することができると仮説を立てています。新しい概念のテキスト記述が提供されると、我々の方法は、ビジュアルエンコーダの既知の低レベルの特徴をその高レベルのテキスト記述に整列させることで機能します。知識転送は、対象概念の単一の記述のみを必要とすることで、多モーダルモデルに新しい概念を非常に効率的に導入できることを示しています。我々のアプローチは、別々のテキストエンコーダとビジュアルエンコーダ(例:CLIP)およびモダリティ間で共有されるパラメータの両方と互換性があります。また、同じ原則に従うことで、知識転送がモデルに既知の概念を改善できることも示しています。知識転送を活用することで、ゼロショットパフォーマンスを向上させ、分類、セグメンテーション、画像テキスト検索、キャプショニングなどのさまざまなタスクでの性能を向上させることができます。
English
We present a way to learn novel concepts by only using their textual description. We call this method Knowledge Transfer. Similarly to human perception, we leverage cross-modal interaction to introduce new concepts. We hypothesize that in a pre-trained visual encoder there are enough low-level features already learned (e.g. shape, appearance, color) that can be used to describe previously unknown high-level concepts. Provided with a textual description of the novel concept, our method works by aligning the known low-level features of the visual encoder to its high-level textual description. We show that Knowledge Transfer can successfully introduce novel concepts in multimodal models, in a very efficient manner, by only requiring a single description of the target concept. Our approach is compatible with both separate textual and visual encoders (e.g. CLIP) and shared parameters across modalities. We also show that, following the same principle, Knowledge Transfer can improve concepts already known by the model. Leveraging Knowledge Transfer we improve zero-shot performance across different tasks such as classification, segmentation, image-text retrieval, and captioning.

Summary

AI-Generated Summary

PDF173November 26, 2024