Гиперболические модели "зрение-язык" с учетом безопасности
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
Авторы: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
Аннотация
Решение проблемы извлечения небезопасного контента из моделей, объединяющих зрение и язык, таких как CLIP, является важным шагом на пути к их интеграции в реальные приложения. Современные подходы основываются на методах "разучивания", которые пытаются стереть знания модели о небезопасных концепциях. Хотя эти методы эффективны в снижении нежелательных результатов, "разучивание" ограничивает способность модели различать безопасный и небезопасный контент. В данной работе мы представляем новый подход, который переходит от "разучивания" к парадигме осознанности, используя присущие гиперболическому пространству иерархические свойства. Мы предлагаем кодировать безопасный и небезопасный контент как иерархию следования, где оба типа контента размещаются в разных областях гиперболического пространства. Наша модель HySAC (Hyperbolic Safety-Aware CLIP) использует функции потерь следования для моделирования иерархических и асимметричных отношений между безопасными и небезопасными парами изображение-текст. Такое моделирование, неэффективное в стандартных моделях, объединяющих зрение и язык, из-за их зависимости от евклидовых вложений, наделяет модель осознанностью небезопасного контента, позволяя ей выступать как в роли многомодального классификатора небезопасного контента, так и гибкого извлекателя контента, с возможностью динамически перенаправлять небезопасные запросы к более безопасным альтернативам или сохранять исходный вывод. Многочисленные эксперименты показывают, что наш подход не только улучшает распознавание безопасности, но и создает более адаптируемую и интерпретируемую структуру для модерации контента в моделях, объединяющих зрение и язык. Наш исходный код доступен по адресу https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.Summary
AI-Generated Summary