통합 언러닌 버전치마크: 텍스트에서 이미지로의 확산 모델 언러닌을 위한 다면 평가
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
October 8, 2024
저자: Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim
cs.AI
초록
텍스트 대 이미지 확산 모델이 상업용 응용 프로그램에 충분히 발전함에 따라, 그들의 악의적이고 해로운 사용 가능성에 대한 우려도 증가하고 있습니다. 모델 언러닝은 사전 훈련된 모델에서 원치 않는 및 잠재적으로 해로운 정보를 제거하여 이러한 우려를 완화하기 위해 제안되었습니다. 지금까지 언러닝의 성공은 주로 언러닝된 모델이 이미지 품질을 유지하면서 대상 개념을 생성할 수 있는지에 의해 측정되었습니다. 그러나 언러닝은 일반적으로 제한된 시나리오에서 테스트되며, 현재 문헌에서 언러닝의 부작용은 거의 연구되지 않았습니다. 본 연구에서는 다섯 가지 주요 측면에서 다양한 시나리오에서 언러닝을 철저히 분석합니다. 우리의 조사 결과, 모든 방법에는 특히 더 복잡하고 현실적인 상황에서 부작용이나 제한이 있음을 밝혀냅니다. 소스 코드와 아티팩트와 함께 포괄적인 평가 프레임워크를 공개함으로써, 이 분야에서 더 신뢰할 수 있고 효과적인 언러닝 방법을 모색하며, 더 많은 연구를 촉진하기를 희망합니다.
English
As text-to-image diffusion models become advanced enough for commercial
applications, there is also increasing concern about their potential for
malicious and harmful use. Model unlearning has been proposed to mitigate the
concerns by removing undesired and potentially harmful information from the
pre-trained model. So far, the success of unlearning is mainly measured by
whether the unlearned model can generate a target concept while maintaining
image quality. However, unlearning is typically tested under limited scenarios,
and the side effects of unlearning have barely been studied in the current
literature. In this work, we thoroughly analyze unlearning under various
scenarios with five key aspects. Our investigation reveals that every method
has side effects or limitations, especially in more complex and realistic
situations. By releasing our comprehensive evaluation framework with the source
codes and artifacts, we hope to inspire further research in this area, leading
to more reliable and effective unlearning methods.Summary
AI-Generated Summary