ホリスティックなアンラーニングベンチマーク:テキストから画像への拡散モデルのアンラーニングのための多面的評価
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
October 8, 2024
著者: Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim
cs.AI
要旨
テキストから画像への拡散モデルが商業用途において十分に高度化するにつれて、その悪用や有害利用への懸念も高まっています。モデルのアンラーニングは、事前に学習されたモデルから望ましくない、潜在的に有害な情報を除去することでこれらの懸念を軽減するために提案されています。現時点では、アンラーニングの成功は主に、アンラーニングされたモデルが画像品質を維持しながら目標概念を生成できるかどうかで評価されています。しかし、アンラーニングは通常、限られたシナリオでテストされ、現行の文献ではアンラーニングの副作用がほとんど研究されていません。本研究では、5つの主要な側面でさまざまなシナリオ下でのアンラーニングを徹底的に分析します。私たちの調査により、すべての手法には副作用や制限があり、特により複雑で現実的な状況では顕著です。ソースコードやアーティファクトとともに包括的な評価フレームワークを公開することで、この分野でのさらなる研究を促進し、より信頼性の高い効果的なアンラーニング手法につながることを期待しています。
English
As text-to-image diffusion models become advanced enough for commercial
applications, there is also increasing concern about their potential for
malicious and harmful use. Model unlearning has been proposed to mitigate the
concerns by removing undesired and potentially harmful information from the
pre-trained model. So far, the success of unlearning is mainly measured by
whether the unlearned model can generate a target concept while maintaining
image quality. However, unlearning is typically tested under limited scenarios,
and the side effects of unlearning have barely been studied in the current
literature. In this work, we thoroughly analyze unlearning under various
scenarios with five key aspects. Our investigation reveals that every method
has side effects or limitations, especially in more complex and realistic
situations. By releasing our comprehensive evaluation framework with the source
codes and artifacts, we hope to inspire further research in this area, leading
to more reliable and effective unlearning methods.Summary
AI-Generated Summary