Modelos de Visão-Linguagem Conscientes da Segurança Hiperbólica
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
Autores: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
Resumo
Abordar a recuperação de conteúdo inseguro em modelos visão-linguagem, como o CLIP, é um passo importante para a integração no mundo real. Os esforços atuais têm se baseado em técnicas de "desaprendizado" que tentam apagar o conhecimento do modelo sobre conceitos inseguros. Embora eficazes na redução de saídas indesejadas, o desaprendizado limita a capacidade do modelo de discernir entre conteúdo seguro e inseguro. Neste trabalho, introduzimos uma abordagem inovadora que muda do paradigma de desaprendizado para um de consciência, aproveitando as propriedades hierárquicas inerentes do espaço hiperbólico. Propomos codificar conteúdo seguro e inseguro como uma hierarquia de implicação, onde ambos são colocados em diferentes regiões do espaço hiperbólico. Nosso HySAC, CLIP Consciente de Segurança Hiperbólica, emprega funções de perda de implicação para modelar as relações hierárquicas e assimétricas entre pares imagem-texto seguros e inseguros. Essa modelagem, ineficaz em modelos visão-linguagem padrão devido à sua dependência de embeddings euclidianos, confere ao modelo a consciência do conteúdo inseguro, permitindo que ele funcione tanto como um classificador multimodal de conteúdo inseguro quanto como um recuperador de conteúdo flexível, com a opção de redirecionar dinamicamente consultas inseguras para alternativas mais seguras ou manter a saída original. Experimentos extensivos mostram que nossa abordagem não apenas melhora o reconhecimento de segurança, mas também estabelece uma estrutura mais adaptável e interpretável para moderação de conteúdo em modelos visão-linguagem. Nosso código-fonte está disponível em https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.Summary
AI-Generated Summary