향상된 시각-언어 추론 능력으로 CLIP 강화하기
Augmenting CLIP with Improved Visio-Linguistic Reasoning
July 18, 2023
저자: Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
cs.AI
초록
CLIP과 같은 이미지-텍스트 대조 모델은 제로샷 분류, 이미지-텍스트 검색 및 전이 학습을 포함한 다양한 다운스트림 애플리케이션에 유용합니다. 그러나 이러한 대조 학습 방식의 시각-언어 모델은 Winoground와 같은 구성적 시각-언어 작업에서 무작위 추측 수준의 성능을 보이며 종종 실패합니다. 본 논문에서는 이 문제를 해결하고 CLIP의 구성적 시각-언어 추론 능력을 향상시키기 위해 SDS-CLIP이라는 샘플 효율적이고 경량화된 방법을 제안합니다. 우리 방법의 핵심 아이디어는 Stable-Diffusion과 같은 대규모 텍스트-이미지 생성 모델로부터의 지식 증류 목적을 사용하여 CLIP을 미세 조정하는 데 미분 가능한 이미지 파라미터화를 활용하는 것입니다. 이러한 생성 모델은 시각-언어 추론 작업에서 상대적으로 우수한 성능을 보입니다. 도전적인 Winoground 구성적 추론 벤치마크에서 우리의 방법은 다양한 CLIP 모델의 절대적 시각-언어 성능을 최대 7%까지 향상시켰으며, ARO 데이터셋에서는 최대 3%의 성능 향상을 보였습니다. 또한, CLIP에 시각-언어 추론 능력을 유도하는 부산물로 다양한 다운스트림 데이터셋에서 제로샷 성능이 소폭 개선되는 것을 확인했습니다. 우리의 방법은 생성 모델로부터 신중하게 설계된 증류 목적을 활용하여 기존의 대조적 이미지-텍스트 모델을 확장하고 시각-언어 추론 능력을 개선할 수 있음을 강조합니다.
English
Image-text contrastive models such as CLIP are useful for a variety of
downstream applications including zero-shot classification, image-text
retrieval and transfer learning. However, these contrastively trained
vision-language models often fail on compositional visio-linguistic tasks such
as Winoground with performance equivalent to random chance. In our paper, we
address this issue and propose a sample-efficient light-weight method called
SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities
of CLIP. The core idea of our method is to use differentiable image
parameterizations to fine-tune CLIP with a distillation objective from large
text-to-image generative models such as Stable-Diffusion which are relatively
good at visio-linguistic reasoning tasks. On the challenging Winoground
compositional reasoning benchmark, our method improves the absolute
visio-linguistic performance of different CLIP models by up to 7%, while on the
ARO dataset, our method improves the visio-linguistic performance by upto 3%.
As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find
that the zero-shot performance improves marginally on a variety of downstream
datasets. Our method reinforces that carefully designed distillation objectives
from generative models can be leveraged to extend existing contrastive
image-text models with improved visio-linguistic reasoning capabilities.