Referencial de Desaprendizagem Holística: Uma Avaliação Multifacetada para Desaprendizagem de Modelos de Difusão de Texto para Imagem
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
October 8, 2024
Autores: Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim
cs.AI
Resumo
À medida que os modelos de difusão texto-imagem se tornam suficientemente avançados para aplicações comerciais, também há uma crescente preocupação com seu potencial para uso malicioso e prejudicial. O desaprendizado do modelo tem sido proposto para mitigar essas preocupações, removendo informações indesejadas e potencialmente prejudiciais do modelo pré-treinado. Até agora, o sucesso do desaprendizado é principalmente medido pela capacidade do modelo desaprendido de gerar um conceito-alvo mantendo a qualidade da imagem. No entanto, o desaprendizado é tipicamente testado sob cenários limitados, e os efeitos colaterais do desaprendizado mal foram estudados na literatura atual. Neste trabalho, analisamos minuciosamente o desaprendizado sob vários cenários com cinco aspectos-chave. Nossa investigação revela que cada método tem efeitos colaterais ou limitações, especialmente em situações mais complexas e realistas. Ao disponibilizar nosso abrangente framework de avaliação com os códigos-fonte e artefatos, esperamos inspirar pesquisas adicionais nessa área, levando a métodos de desaprendizado mais confiáveis e eficazes.
English
As text-to-image diffusion models become advanced enough for commercial
applications, there is also increasing concern about their potential for
malicious and harmful use. Model unlearning has been proposed to mitigate the
concerns by removing undesired and potentially harmful information from the
pre-trained model. So far, the success of unlearning is mainly measured by
whether the unlearned model can generate a target concept while maintaining
image quality. However, unlearning is typically tested under limited scenarios,
and the side effects of unlearning have barely been studied in the current
literature. In this work, we thoroughly analyze unlearning under various
scenarios with five key aspects. Our investigation reveals that every method
has side effects or limitations, especially in more complex and realistic
situations. By releasing our comprehensive evaluation framework with the source
codes and artifacts, we hope to inspire further research in this area, leading
to more reliable and effective unlearning methods.Summary
AI-Generated Summary