Modelli Visione-Linguaggio con Consapevolezza della Sicurezza in Spazio Iperbolico

Abstract

Affrontare il recupero di contenuti non sicuri da modelli visione-linguaggio come CLIP rappresenta un passo importante verso l'integrazione nel mondo reale. Gli sforzi attuali si sono basati su tecniche di "unlearning" che cercano di cancellare la conoscenza del modello riguardo a concetti non sicuri. Sebbene efficaci nel ridurre gli output indesiderati, queste tecniche limitano la capacità del modello di distinguere tra contenuti sicuri e non sicuri. In questo lavoro, introduciamo un approccio innovativo che passa dall'"unlearning" a un paradigma di consapevolezza, sfruttando le proprietà gerarchiche intrinseche dello spazio iperbolico. Proponiamo di codificare i contenuti sicuri e non sicuri come una gerarchia di implicazione, posizionandoli in regioni diverse dello spazio iperbolico. Il nostro HySAC, Hyperbolic Safety-Aware CLIP, utilizza funzioni di perdita basate sull'implicazione per modellare le relazioni gerarchiche e asimmetriche tra coppie immagine-testo sicure e non sicure. Questa modellazione, inefficace nei modelli visione-linguaggio standard a causa della loro dipendenza da embedding euclidei, conferisce al modello una consapevolezza dei contenuti non sicuri, permettendogli di fungere sia da classificatore multimodale non sicuro che da recuperatore flessibile di contenuti, con la possibilità di reindirizzare dinamicamente le query non sicure verso alternative più sicure o di mantenere l'output originale. Esperimenti estesi dimostrano che il nostro approccio non solo migliora il riconoscimento della sicurezza, ma stabilisce anche un framework più adattabile e interpretabile per la moderazione dei contenuti nei modelli visione-linguaggio. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/aimagelab/HySAC.

English

Addressing the retrieval of unsafe content from vision-language models such as CLIP is an important step towards real-world integration. Current efforts have relied on unlearning techniques that try to erase the model's knowledge of unsafe concepts. While effective in reducing unwanted outputs, unlearning limits the model's capacity to discern between safe and unsafe content. In this work, we introduce a novel approach that shifts from unlearning to an awareness paradigm by leveraging the inherent hierarchical properties of the hyperbolic space. We propose to encode safe and unsafe content as an entailment hierarchy, where both are placed in different regions of hyperbolic space. Our HySAC, Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the hierarchical and asymmetrical relations between safe and unsafe image-text pairs. This modelling, ineffective in standard vision-language models due to their reliance on Euclidean embeddings, endows the model with awareness of unsafe content, enabling it to serve as both a multimodal unsafe classifier and a flexible content retriever, with the option to dynamically redirect unsafe queries toward safer alternatives or retain the original output. Extensive experiments show that our approach not only enhances safety recognition but also establishes a more adaptable and interpretable framework for content moderation in vision-language models. Our source code is available at https://github.com/aimagelab/HySAC.

Modelli Visione-Linguaggio con Consapevolezza della Sicurezza in Spazio Iperbolico

Hyperbolic Safety-Aware Vision-Language Models

Abstract

Support