Detecção Aprimorada de OoD através do Alinhamento Intermodal de Representações Multimodais
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations
March 24, 2025
Autores: Jeonghyeon Kim, Sangheum Hwang
cs.AI
Resumo
Pesquisas anteriores sobre detecção de dados fora da distribuição (OoDD, do inglês Out-of-Distribution Detection) concentraram-se principalmente em modelos de modalidade única. Recentemente, com o advento de modelos de visão e linguagem pré-treinados em grande escala, como o CLIP, surgiram métodos de OoDD que utilizam representações multimodais por meio de estratégias de aprendizado zero-shot e prompt learning. No entanto, esses métodos geralmente envolvem o congelamento dos pesos pré-treinados ou apenas o ajuste parcial deles, o que pode ser subótimo para conjuntos de dados downstream. Neste artigo, destacamos que o ajuste fino multimodal (MMFT, do inglês Multi-Modal Fine-Tuning) pode alcançar um desempenho notável em OoDD. Apesar de alguns trabalhos recentes demonstrarem o impacto de métodos de ajuste fino para OoDD, ainda há um potencial significativo para melhoria de desempenho. Investigamos a limitação de métodos de ajuste fino ingênuos, examinando por que eles não conseguem aproveitar totalmente o conhecimento pré-treinado. Nossa análise empírica sugere que esse problema pode decorrer da lacuna modal entre os embeddings de dados dentro da distribuição (ID, do inglês In-Distribution). Para abordar isso, propomos um objetivo de treinamento que melhora o alinhamento multimodal ao regularizar as distâncias entre os embeddings de imagem e texto dos dados ID. Esse ajuste ajuda a utilizar melhor as informações textuais pré-treinadas, alinhando semânticas semelhantes de diferentes modalidades (ou seja, texto e imagem) mais de perto no espaço de representação hiperesférico. Demonstramos teoricamente que a regularização proposta corresponde à estimativa de máxima verossimilhança de um modelo baseado em energia em uma hiperesfera. Utilizando conjuntos de dados de benchmark OoD do ImageNet-1k, mostramos que nosso método, combinado com abordagens OoDD pós-hoc que aproveitam o conhecimento pré-treinado (por exemplo, NegLabel), supera significativamente os métodos existentes, alcançando desempenho state-of-the-art em OoDD e liderando em precisão ID.
English
Prior research on out-of-distribution detection (OoDD) has primarily focused
on single-modality models. Recently, with the advent of large-scale pretrained
vision-language models such as CLIP, OoDD methods utilizing such multi-modal
representations through zero-shot and prompt learning strategies have emerged.
However, these methods typically involve either freezing the pretrained weights
or only partially tuning them, which can be suboptimal for downstream datasets.
In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve
notable OoDD performance. Despite some recent works demonstrating the impact of
fine-tuning methods for OoDD, there remains significant potential for
performance improvement. We investigate the limitation of na\"ive fine-tuning
methods, examining why they fail to fully leverage the pretrained knowledge.
Our empirical analysis suggests that this issue could stem from the modality
gap within in-distribution (ID) embeddings. To address this, we propose a
training objective that enhances cross-modal alignment by regularizing the
distances between image and text embeddings of ID data. This adjustment helps
in better utilizing pretrained textual information by aligning similar
semantics from different modalities (i.e., text and image) more closely in the
hyperspherical representation space. We theoretically demonstrate that the
proposed regularization corresponds to the maximum likelihood estimation of an
energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark
datasets, we show that our method, combined with post-hoc OoDD approaches
leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms
existing methods, achieving state-of-the-art OoDD performance and leading ID
accuracy.Summary
AI-Generated Summary