하이퍼볼릭 안전 인식 시각-언어 모델
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
저자: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
초록
CLIP과 같은 시각-언어 모델에서 안전하지 않은 콘텐츠의 검색 문제를 해결하는 것은 실제 세계 통합을 위한 중요한 단계입니다. 현재의 연구들은 안전하지 않은 개념에 대한 모델의 지식을 지우려는 언러닝(unlearning) 기술에 의존해 왔습니다. 이러한 방법은 원치 않는 출력을 줄이는 데 효과적이지만, 모델이 안전한 콘텐츠와 안전하지 않은 콘텐츠를 구분하는 능력을 제한합니다. 본 연구에서는 쌍곡 공간의 고유한 계층적 특성을 활용하여 언러닝에서 인식(awareness) 패러다임으로 전환하는 새로운 접근 방식을 제안합니다. 우리는 안전한 콘텐츠와 안전하지 않은 콘텐츠를 함의 계층(entailment hierarchy)으로 인코딩하여, 이를 쌍곡 공간의 서로 다른 영역에 배치합니다. 우리의 HySAC(Hyperbolic Safety-Aware CLIP)은 함의 손실 함수(entailment loss functions)를 사용하여 안전한 이미지-텍스트 쌍과 안전하지 않은 이미지-텍스트 쌍 간의 계층적이고 비대칭적인 관계를 모델링합니다. 이러한 모델링은 표준 시각-언어 모델이 유클리드 임베딩에 의존하기 때문에 효과적이지 않았지만, HySAC은 안전하지 않은 콘텐츠에 대한 인식을 부여하여 다중 모드 안전하지 않은 분류기(multimodal unsafe classifier)와 유연한 콘텐츠 검색기로 동시에 작동할 수 있게 합니다. 이를 통해 안전하지 않은 쿼리를 동적으로 더 안전한 대안으로 리디렉션하거나 원래의 출력을 유지할 수 있는 옵션을 제공합니다. 광범위한 실험을 통해 우리의 접근 방식이 안전 인식을 향상시킬 뿐만 아니라 시각-언어 모델에서 콘텐츠 조정을 위한 더 적응적이고 해석 가능한 프레임워크를 구축함을 보여줍니다. 우리의 소스 코드는 https://github.com/aimagelab/HySAC에서 확인할 수 있습니다.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.Summary
AI-Generated Summary