Улучшенное обнаружение данных вне распределения через кросс-модальное согласование мультимодальных представлений
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations
March 24, 2025
Авторы: Jeonghyeon Kim, Sangheum Hwang
cs.AI
Аннотация
Предыдущие исследования в области обнаружения данных вне распределения (OoDD) в основном были сосредоточены на моделях с одним модальностью. В последнее время с появлением крупномасштабных предобученных моделей, работающих с визуальными и текстовыми данными, таких как CLIP, появились методы OoDD, использующие такие мультимодальные представления через стратегии обучения с нулевым выстрелом (zero-shot) и подсказками (prompt learning). Однако эти методы обычно предполагают либо заморозку предобученных весов, либо их частичную настройку, что может быть неоптимальным для последующих наборов данных. В данной статье мы подчеркиваем, что мультимодальная тонкая настройка (MMFT) может достичь значительных результатов в OoDD. Несмотря на то, что некоторые недавние работы демонстрируют влияние методов тонкой настройки на OoDD, остается значительный потенциал для улучшения производительности. Мы исследуем ограничения наивных методов тонкой настройки, анализируя, почему они не могут полностью использовать предобученные знания. Наш эмпирический анализ предполагает, что эта проблема может быть связана с разрывом модальностей внутри встроений данных из распределения (ID). Для решения этой проблемы мы предлагаем целевую функцию обучения, которая улучшает кросс-модальное выравнивание, регулируя расстояния между вложениями изображений и текстов данных ID. Это изменение помогает лучше использовать предобученную текстовую информацию, более тесно выравнивая схожую семантику из разных модальностей (т.е. текста и изображения) в гиперсферическом пространстве представлений. Мы теоретически показываем, что предложенная регуляризация соответствует оценке максимального правдоподобия энергетической модели на гиперсфере. Используя наборы данных OoD из ImageNet-1k, мы демонстрируем, что наш метод в сочетании с пост-обработочными подходами OoDD, использующими предобученные знания (например, NegLabel), значительно превосходит существующие методы, достигая наилучших показателей OoDD и лидирующей точности на данных ID.
English
Prior research on out-of-distribution detection (OoDD) has primarily focused
on single-modality models. Recently, with the advent of large-scale pretrained
vision-language models such as CLIP, OoDD methods utilizing such multi-modal
representations through zero-shot and prompt learning strategies have emerged.
However, these methods typically involve either freezing the pretrained weights
or only partially tuning them, which can be suboptimal for downstream datasets.
In this paper, we highlight that multi-modal fine-tuning (MMFT) can achieve
notable OoDD performance. Despite some recent works demonstrating the impact of
fine-tuning methods for OoDD, there remains significant potential for
performance improvement. We investigate the limitation of na\"ive fine-tuning
methods, examining why they fail to fully leverage the pretrained knowledge.
Our empirical analysis suggests that this issue could stem from the modality
gap within in-distribution (ID) embeddings. To address this, we propose a
training objective that enhances cross-modal alignment by regularizing the
distances between image and text embeddings of ID data. This adjustment helps
in better utilizing pretrained textual information by aligning similar
semantics from different modalities (i.e., text and image) more closely in the
hyperspherical representation space. We theoretically demonstrate that the
proposed regularization corresponds to the maximum likelihood estimation of an
energy-based model on a hypersphere. Utilizing ImageNet-1k OoD benchmark
datasets, we show that our method, combined with post-hoc OoDD approaches
leveraging pretrained knowledge (e.g., NegLabel), significantly outperforms
existing methods, achieving state-of-the-art OoDD performance and leading ID
accuracy.Summary
AI-Generated Summary