자연어 감독을 통한 다양한 모달리티 간 지식 이전
Knowledge Transfer Across Modalities with Natural Language Supervision
November 23, 2024
저자: Carlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
cs.AI
초록
우리는 새로운 개념을 배우는 방법을 제시합니다. 이 방법은 텍스트 설명만을 사용하여 새로운 개념을 학습하는 것입니다. 이를 '지식 전이'라고 부릅니다. 인간의 지각과 유사하게, 우리는 새로운 개념을 도입하기 위해 크로스 모달 상호작용을 활용합니다. 사전 훈련된 시각 인코더에는 이미 학습된 충분한 수준의 낮은 수준 특징(예: 모양, 외관, 색상)이 있다고 가정합니다. 이러한 특징은 이전에 알려지지 않은 고수준 개념을 설명하는 데 사용될 수 있습니다. 새로운 개념의 텍스트 설명이 제공될 때, 우리의 방법은 시각 인코더의 알려진 낮은 수준 특징을 해당 고수준 텍스트 설명에 정렬함으로써 작동합니다. 우리는 '지식 전이'가 다중 모달 모델에 새로운 개념을 매우 효율적으로 소개할 수 있음을 보여줍니다. 이는 대상 개념의 단일 설명만 필요로 합니다. 우리의 접근 방식은 별도의 텍스트 및 시각 인코더(예: CLIP) 및 모달 간 공유 매개변수와 호환됩니다. 또한 동일한 원칙을 따르면 '지식 전이'가 모델이 이미 알고 있는 개념을 개선할 수 있음을 보여줍니다. 지식 전이를 활용하여 우리는 분류, 분할, 이미지-텍스트 검색 및 캡션 작성과 같은 다양한 작업에서 제로샷 성능을 향상시킵니다.
English
We present a way to learn novel concepts by only using their textual
description. We call this method Knowledge Transfer. Similarly to human
perception, we leverage cross-modal interaction to introduce new concepts. We
hypothesize that in a pre-trained visual encoder there are enough low-level
features already learned (e.g. shape, appearance, color) that can be used to
describe previously unknown high-level concepts. Provided with a textual
description of the novel concept, our method works by aligning the known
low-level features of the visual encoder to its high-level textual description.
We show that Knowledge Transfer can successfully introduce novel concepts in
multimodal models, in a very efficient manner, by only requiring a single
description of the target concept. Our approach is compatible with both
separate textual and visual encoders (e.g. CLIP) and shared parameters across
modalities. We also show that, following the same principle, Knowledge Transfer
can improve concepts already known by the model. Leveraging Knowledge Transfer
we improve zero-shot performance across different tasks such as classification,
segmentation, image-text retrieval, and captioning.Summary
AI-Generated Summary