ChatPaper.aiChatPaper

다중 모달 표현 간 교차 모달 정렬을 통한 향상된 OoD 탐지

Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

March 24, 2025
저자: Jeonghyeon Kim, Sangheum Hwang
cs.AI

초록

분포 외 탐지(Out-of-Distribution Detection, OoDD)에 대한 기존 연구는 주로 단일 모달리티 모델에 초점을 맞추어 왔습니다. 최근 CLIP과 같은 대규모 사전 학습된 비전-언어 모델의 등장으로, 제로샷 및 프롬프트 학습 전략을 통해 이러한 다중 모달리티 표현을 활용한 OoDD 방법들이 등장했습니다. 그러나 이러한 방법들은 일반적으로 사전 학습된 가중치를 고정하거나 부분적으로만 조정하는 방식을 사용하며, 이는 하위 데이터셋에 대해 최적이 아닐 수 있습니다. 본 논문에서는 다중 모달리티 미세 조정(Multi-Modal Fine-Tuning, MMFT)이 뛰어난 OoDD 성능을 달성할 수 있음을 강조합니다. 최근 일부 연구에서 미세 조정 방법이 OoDD에 미치는 영향을 보여주었음에도 불구하고, 성능 개선을 위한 상당한 잠재력이 남아 있습니다. 우리는 단순한 미세 조정 방법의 한계를 조사하며, 이러한 방법들이 사전 학습된 지식을 완전히 활용하지 못하는 이유를 분석합니다. 우리의 실증적 분석은 이 문제가 분포 내(In-Distribution, ID) 임베딩 내의 모달리티 간 격차에서 비롯될 수 있음을 시사합니다. 이를 해결하기 위해, 우리는 ID 데이터의 이미지와 텍스트 임베딩 간 거리를 정규화함으로써 교차 모달리티 정렬을 강화하는 학습 목표를 제안합니다. 이 조정은 하이퍼스피어 표현 공간에서 서로 다른 모달리티(즉, 텍스트와 이미지) 간 유사한 의미를 더 밀접하게 정렬함으로써 사전 학습된 텍스트 정보를 더 잘 활용하는 데 도움을 줍니다. 우리는 제안된 정규화가 하이퍼스피어 상의 에너지 기반 모델의 최대 가능도 추정에 해당함을 이론적으로 입증합니다. ImageNet-1k OoD 벤치마크 데이터셋을 활용하여, 우리의 방법이 사전 학습된 지식을 활용한 사후 OoDD 접근법(예: NegLabel)과 결합되었을 때 기존 방법들을 크게 능가하며, 최첨단 OoDD 성능과 최고의 ID 정확도를 달성함을 보여줍니다.
English
Prior research on out-of-distribution detection (OoDD) has primarily focused on single-modality models. Recently, with the advent of large-scale pretrained vision-language models such as CLIP, OoDD methods utilizing such multi-modal representations through zero-shot and prompt learning strategies have emerged. However, these methods typically involve either freezing the pretrained weights or only partially tuning them, which can be suboptimal for downstream datasets. In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve notable OoDD performance. Despite some recent works demonstrating the impact of fine-tuning methods for OoDD, there remains significant potential for performance improvement. We investigate the limitation of na\"ive fine-tuning methods, examining why they fail to fully leverage the pretrained knowledge. Our empirical analysis suggests that this issue could stem from the modality gap within in-distribution (ID) embeddings. To address this, we propose a training objective that enhances cross-modal alignment by regularizing the distances between image and text embeddings of ID data. This adjustment helps in better utilizing pretrained textual information by aligning similar semantics from different modalities (i.e., text and image) more closely in the hyperspherical representation space. We theoretically demonstrate that the proposed regularization corresponds to the maximum likelihood estimation of an energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark datasets, we show that our method, combined with post-hoc OoDD approaches leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms existing methods, achieving state-of-the-art OoDD performance and leading ID accuracy.

Summary

AI-Generated Summary

PDF41April 3, 2025