ChatPaper.aiChatPaper

マルチモーダル表現のクロスモーダルアライメントによるOoD検出の強化

Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

March 24, 2025
著者: Jeonghyeon Kim, Sangheum Hwang
cs.AI

要旨

従来の分布外検出(OoDD)に関する研究は、主に単一モダリティモデルに焦点を当ててきました。最近では、CLIPのような大規模事前学習済み視覚言語モデルの登場により、ゼロショット学習やプロンプト学習戦略を活用したマルチモーダル表現を用いるOoDD手法が現れています。しかし、これらの手法は通常、事前学習済みの重みを凍結するか、部分的にチューニングするのみであり、下流のデータセットに対して最適でない場合があります。本論文では、マルチモーダルファインチューニング(MMFT)が顕著なOoDD性能を達成できることを強調します。最近のいくつかの研究では、OoDDのためのファインチューニング手法の影響が示されていますが、性能向上のための大きな可能性が残されています。我々は、ナイーブなファインチューニング手法の限界を調査し、なぜそれらが事前学習済みの知識を十分に活用できないのかを検証します。我々の実証分析によると、この問題は分布内(ID)埋め込みにおけるモダリティギャップに起因する可能性があります。これを解決するために、IDデータの画像とテキスト埋め込み間の距離を正則化することで、クロスモーダルアラインメントを強化する訓練目的関数を提案します。この調整により、異なるモダリティ(すなわち、テキストと画像)からの類似した意味を超球表現空間でより密接に整列させることで、事前学習済みのテキスト情報をより効果的に活用することが可能になります。我々は、提案する正則化が超球上のエネルギーベースモデルの最尤推定に対応することを理論的に示します。ImageNet-1k OoDベンチマークデータセットを用いて、事前学習済みの知識を活用した事後OoDD手法(例えば、NegLabel)と組み合わせた我々の手法が、既存の手法を大幅に上回り、最先端のOoDD性能と最高のID精度を達成することを示します。
English
Prior research on out-of-distribution detection (OoDD) has primarily focused on single-modality models. Recently, with the advent of large-scale pretrained vision-language models such as CLIP, OoDD methods utilizing such multi-modal representations through zero-shot and prompt learning strategies have emerged. However, these methods typically involve either freezing the pretrained weights or only partially tuning them, which can be suboptimal for downstream datasets. In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve notable OoDD performance. Despite some recent works demonstrating the impact of fine-tuning methods for OoDD, there remains significant potential for performance improvement. We investigate the limitation of na\"ive fine-tuning methods, examining why they fail to fully leverage the pretrained knowledge. Our empirical analysis suggests that this issue could stem from the modality gap within in-distribution (ID) embeddings. To address this, we propose a training objective that enhances cross-modal alignment by regularizing the distances between image and text embeddings of ID data. This adjustment helps in better utilizing pretrained textual information by aligning similar semantics from different modalities (i.e., text and image) more closely in the hyperspherical representation space. We theoretically demonstrate that the proposed regularization corresponds to the maximum likelihood estimation of an energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark datasets, we show that our method, combined with post-hoc OoDD approaches leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms existing methods, achieving state-of-the-art OoDD performance and leading ID accuracy.

Summary

AI-Generated Summary

PDF41April 3, 2025