Modelos de Visión-Lenguaje Conscientes de la Seguridad Hiperbólica
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
Autores: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
Resumen
Abordar la recuperación de contenido inseguro en modelos de visión y lenguaje como CLIP es un paso importante hacia su integración en el mundo real. Los esfuerzos actuales se han basado en técnicas de desaprendizaje que intentan eliminar el conocimiento del modelo sobre conceptos inseguros. Aunque efectivas para reducir salidas no deseadas, estas técnicas limitan la capacidad del modelo para discernir entre contenido seguro e inseguro. En este trabajo, presentamos un enfoque novedoso que cambia del desaprendizaje a un paradigma de conciencia, aprovechando las propiedades jerárquicas inherentes del espacio hiperbólico. Proponemos codificar el contenido seguro e inseguro como una jerarquía de implicación, donde ambos se colocan en diferentes regiones del espacio hiperbólico. Nuestro HySAC, CLIP Hiperbólico con Conciencia de Seguridad, emplea funciones de pérdida de implicación para modelar las relaciones jerárquicas y asimétricas entre pares de imagen-texto seguros e inseguros. Este modelado, ineficaz en modelos estándar de visión y lenguaje debido a su dependencia de incrustaciones euclidianas, dota al modelo de conciencia sobre el contenido inseguro, permitiéndole funcionar tanto como un clasificador multimodal de contenido inseguro como un recuperador flexible de contenido, con la opción de redirigir dinámicamente consultas inseguras hacia alternativas más seguras o mantener la salida original. Experimentos exhaustivos muestran que nuestro enfoque no solo mejora el reconocimiento de seguridad, sino que también establece un marco más adaptable e interpretable para la moderación de contenido en modelos de visión y lenguaje. Nuestro código fuente está disponible en https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.Summary
AI-Generated Summary