Verbeterde OoD-detectie door kruismodale afstemming van multimodale representaties
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations
March 24, 2025
Auteurs: Jeonghyeon Kim, Sangheum Hwang
cs.AI
Samenvatting
Eerder onderzoek naar out-of-distribution detectie (OoDD) richtte zich voornamelijk op enkelvoudige modaliteitsmodellen. Recentelijk, met de opkomst van grootschalige vooraf getrainde vision-language modellen zoals CLIP, zijn OoDD-methoden ontstaan die gebruikmaken van dergelijke multimodale representaties via zero-shot en prompt learning strategieën. Deze methoden houden echter meestal ofwel de vooraf getrainde gewichten bevroren of passen ze slechts gedeeltelijk aan, wat suboptimaal kan zijn voor downstream datasets. In dit artikel benadrukken we dat multimodale fine-tuning (MMFT) aanzienlijke OoDD-prestaties kan bereiken. Ondanks enkele recente werken die de impact van fine-tuning methoden voor OoDD aantonen, blijft er aanzienlijk potentieel voor prestatieverbetering. Wij onderzoeken de beperkingen van naïeve fine-tuning methoden en analyseren waarom ze niet volledig gebruikmaken van de vooraf getrainde kennis. Onze empirische analyse suggereert dat dit probleem zou kunnen voortkomen uit de modaliteitskloof binnen in-distribution (ID) embeddings. Om dit aan te pakken, stellen we een trainingsdoel voor dat de cross-modale uitlijning verbetert door de afstanden tussen beeld- en tekstembeddings van ID-data te regulariseren. Deze aanpassing helpt bij het beter benutten van vooraf getrainde tekstuele informatie door vergelijkbare semantiek uit verschillende modaliteiten (d.w.z. tekst en beeld) nauwer uit te lijnen in de hypersferische representatieruimte. We tonen theoretisch aan dat de voorgestelde regularisatie overeenkomt met de maximum likelihood schatting van een energie-gebaseerd model op een hypersfeer. Door gebruik te maken van ImageNet-1k OoD benchmark datasets, laten we zien dat onze methode, gecombineerd met post-hoc OoDD-benaderingen die gebruikmaken van vooraf getrainde kennis (bijv. NegLabel), bestaande methoden significant overtreft, wat resulteert in state-of-the-art OoDD-prestaties en leidende ID-nauwkeurigheid.
English
Prior research on out-of-distribution detection (OoDD) has primarily focused
on single-modality models. Recently, with the advent of large-scale pretrained
vision-language models such as CLIP, OoDD methods utilizing such multi-modal
representations through zero-shot and prompt learning strategies have emerged.
However, these methods typically involve either freezing the pretrained weights
or only partially tuning them, which can be suboptimal for downstream datasets.
In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve
notable OoDD performance. Despite some recent works demonstrating the impact of
fine-tuning methods for OoDD, there remains significant potential for
performance improvement. We investigate the limitation of na\"ive fine-tuning
methods, examining why they fail to fully leverage the pretrained knowledge.
Our empirical analysis suggests that this issue could stem from the modality
gap within in-distribution (ID) embeddings. To address this, we propose a
training objective that enhances cross-modal alignment by regularizing the
distances between image and text embeddings of ID data. This adjustment helps
in better utilizing pretrained textual information by aligning similar
semantics from different modalities (i.e., text and image) more closely in the
hyperspherical representation space. We theoretically demonstrate that the
proposed regularization corresponds to the maximum likelihood estimation of an
energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark
datasets, we show that our method, combined with post-hoc OoDD approaches
leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms
existing methods, achieving state-of-the-art OoDD performance and leading ID
accuracy.Summary
AI-Generated Summary