Hyperbolische Veiligheidsbewuste Visie-Taalmodellen
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
Auteurs: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
Samenvatting
Het aanpakken van het ophalen van onveilige inhoud uit visueel-taalkundige modellen zoals CLIP is een belangrijke stap naar integratie in de echte wereld. Huidige inspanningen hebben vertrouwd op 'unlearning'-technieken die proberen de kennis van het model over onveilige concepten uit te wissen. Hoewel effectief in het verminderen van ongewenste uitvoer, beperkt 'unlearning' de capaciteit van het model om onderscheid te maken tussen veilige en onveilige inhoud. In dit werk introduceren we een nieuwe benadering die verschuift van 'unlearning' naar een bewustzijnsparadigma door gebruik te maken van de inherente hiërarchische eigenschappen van de hyperbolische ruimte. We stellen voor om veilige en onveilige inhoud te coderen als een hiërarchie van implicaties, waarbij beide in verschillende regio's van de hyperbolische ruimte worden geplaatst. Onze HySAC, Hyperbolic Safety-Aware CLIP, maakt gebruik van implicatie-verliesfuncties om de hiërarchische en asymmetrische relaties tussen veilige en onveilige beeld-tekstparen te modelleren. Deze modellering, die in standaard visueel-taalkundige modellen niet effectief is vanwege hun afhankelijkheid van Euclidische embeddings, geeft het model bewustzijn van onveilige inhoud, waardoor het kan dienen als zowel een multimodale onveilige classificator als een flexibele inhoudsophaler, met de optie om onveilige queries dynamisch om te leiden naar veiligere alternatieven of de oorspronkelijke uitvoer te behouden. Uitgebreide experimenten tonen aan dat onze benadering niet alleen de veiligheidsherkenning verbetert, maar ook een meer aanpasbaar en interpreteerbaar raamwerk voor inhoudsmoderatie in visueel-taalkundige modellen tot stand brengt. Onze broncode is beschikbaar op https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.