Benchmark di Apprendimento Olistico: Una Valutazione Multifacetica per Disapprendimento del Modello di Diffusione Testo-Immagine
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
October 8, 2024
Autori: Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim
cs.AI
Abstract
Man mano che i modelli di diffusione testo-immagine diventano sufficientemente avanzati per applicazioni commerciali, cresce anche la preoccupazione per il loro potenziale utilizzo malintenzionato e dannoso. È stata proposta la rimozione del modello (unlearning) per attenuare tali preoccupazioni eliminando informazioni indesiderate e potenzialmente dannose dal modello pre-addestrato. Finora, il successo dell'unlearning è stato principalmente valutato dalla capacità del modello non appreso di generare un concetto target mantenendo la qualità dell'immagine. Tuttavia, l'unlearning viene tipicamente testato in scenari limitati e gli effetti collaterali dell'unlearning sono stati scarsamente studiati nella letteratura attuale. In questo lavoro, analizziamo approfonditamente l'unlearning in vari scenari con cinque aspetti chiave. La nostra indagine rivela che ogni metodo ha effetti collaterali o limitazioni, specialmente in situazioni più complesse e realistiche. Rilasciando il nostro completo framework di valutazione con i codici sorgente e gli artefatti, speriamo di ispirare ulteriori ricerche in questo ambito, portando a metodi di unlearning più affidabili ed efficaci.
English
As text-to-image diffusion models become advanced enough for commercial
applications, there is also increasing concern about their potential for
malicious and harmful use. Model unlearning has been proposed to mitigate the
concerns by removing undesired and potentially harmful information from the
pre-trained model. So far, the success of unlearning is mainly measured by
whether the unlearned model can generate a target concept while maintaining
image quality. However, unlearning is typically tested under limited scenarios,
and the side effects of unlearning have barely been studied in the current
literature. In this work, we thoroughly analyze unlearning under various
scenarios with five key aspects. Our investigation reveals that every method
has side effects or limitations, especially in more complex and realistic
situations. By releasing our comprehensive evaluation framework with the source
codes and artifacts, we hope to inspire further research in this area, leading
to more reliable and effective unlearning methods.