Modelli Visione-Linguaggio con Consapevolezza della Sicurezza in Spazio Iperbolico
Hyperbolic Safety-Aware Vision-Language Models
March 15, 2025
Autori: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI
Abstract
Affrontare il recupero di contenuti non sicuri da modelli visione-linguaggio come CLIP rappresenta un passo importante verso l'integrazione nel mondo reale. Gli sforzi attuali si sono basati su tecniche di "unlearning" che cercano di cancellare la conoscenza del modello riguardo a concetti non sicuri. Sebbene efficaci nel ridurre gli output indesiderati, queste tecniche limitano la capacità del modello di distinguere tra contenuti sicuri e non sicuri. In questo lavoro, introduciamo un approccio innovativo che passa dall'"unlearning" a un paradigma di consapevolezza, sfruttando le proprietà gerarchiche intrinseche dello spazio iperbolico. Proponiamo di codificare i contenuti sicuri e non sicuri come una gerarchia di implicazione, posizionandoli in regioni diverse dello spazio iperbolico. Il nostro HySAC, Hyperbolic Safety-Aware CLIP, utilizza funzioni di perdita basate sull'implicazione per modellare le relazioni gerarchiche e asimmetriche tra coppie immagine-testo sicure e non sicure. Questa modellazione, inefficace nei modelli visione-linguaggio standard a causa della loro dipendenza da embedding euclidei, conferisce al modello una consapevolezza dei contenuti non sicuri, permettendogli di fungere sia da classificatore multimodale non sicuro che da recuperatore flessibile di contenuti, con la possibilità di reindirizzare dinamicamente le query non sicure verso alternative più sicure o di mantenere l'output originale. Esperimenti estesi dimostrano che il nostro approccio non solo migliora il riconoscimento della sicurezza, ma stabilisce anche un framework più adattabile e interpretabile per la moderazione dei contenuti nei modelli visione-linguaggio. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such
as CLIP is an important step towards real-world integration. Current efforts
have relied on unlearning techniques that try to erase the model's knowledge of
unsafe concepts. While effective in reducing unwanted outputs, unlearning
limits the model's capacity to discern between safe and unsafe content. In this
work, we introduce a novel approach that shifts from unlearning to an awareness
paradigm by leveraging the inherent hierarchical properties of the hyperbolic
space. We propose to encode safe and unsafe content as an entailment hierarchy,
where both are placed in different regions of hyperbolic space. Our HySAC,
Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the
hierarchical and asymmetrical relations between safe and unsafe image-text
pairs. This modelling, ineffective in standard vision-language models due to
their reliance on Euclidean embeddings, endows the model with awareness of
unsafe content, enabling it to serve as both a multimodal unsafe classifier and
a flexible content retriever, with the option to dynamically redirect unsafe
queries toward safer alternatives or retain the original output. Extensive
experiments show that our approach not only enhances safety recognition but
also establishes a more adaptable and interpretable framework for content
moderation in vision-language models. Our source code is available at
https://github.com/aimagelab/HySAC.