Referencial de Desaprendizagem Holística: Uma Avaliação Multifacetada para Desaprendizagem de Modelos de Difusão de Texto para Imagem

Resumo

À medida que os modelos de difusão texto-imagem se tornam suficientemente avançados para aplicações comerciais, também há uma crescente preocupação com seu potencial para uso malicioso e prejudicial. O desaprendizado do modelo tem sido proposto para mitigar essas preocupações, removendo informações indesejadas e potencialmente prejudiciais do modelo pré-treinado. Até agora, o sucesso do desaprendizado é principalmente medido pela capacidade do modelo desaprendido de gerar um conceito-alvo mantendo a qualidade da imagem. No entanto, o desaprendizado é tipicamente testado sob cenários limitados, e os efeitos colaterais do desaprendizado mal foram estudados na literatura atual. Neste trabalho, analisamos minuciosamente o desaprendizado sob vários cenários com cinco aspectos-chave. Nossa investigação revela que cada método tem efeitos colaterais ou limitações, especialmente em situações mais complexas e realistas. Ao disponibilizar nosso abrangente framework de avaliação com os códigos-fonte e artefatos, esperamos inspirar pesquisas adicionais nessa área, levando a métodos de desaprendizado mais confiáveis e eficazes.

English

As text-to-image diffusion models become advanced enough for commercial applications, there is also increasing concern about their potential for malicious and harmful use. Model unlearning has been proposed to mitigate the concerns by removing undesired and potentially harmful information from the pre-trained model. So far, the success of unlearning is mainly measured by whether the unlearned model can generate a target concept while maintaining image quality. However, unlearning is typically tested under limited scenarios, and the side effects of unlearning have barely been studied in the current literature. In this work, we thoroughly analyze unlearning under various scenarios with five key aspects. Our investigation reveals that every method has side effects or limitations, especially in more complex and realistic situations. By releasing our comprehensive evaluation framework with the source codes and artifacts, we hope to inspire further research in this area, leading to more reliable and effective unlearning methods.

Referencial de Desaprendizagem Holística: Uma Avaliação Multifacetada para Desaprendizagem de Modelos de Difusão de Texto para Imagem

Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning

Resumo

Support