ChatPaper.aiChatPaper

UnUnlearning: 고급 생성형 AI의 콘텐츠 규제를 위해서는 단순한 언러닝만으로는 부족하다

UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI

June 27, 2024
저자: Ilia Shumailov, Jamie Hayes, Eleni Triantafillou, Guillermo Ortiz-Jimenez, Nicolas Papernot, Matthew Jagielski, Itay Yona, Heidi Howard, Eugene Bagdasaryan
cs.AI

초록

정확한 언러닝(unlearning)은 처음에 사용자가 요청 시 자신의 데이터를 머신러닝 모델에서 철회할 수 있도록 하는 프라이버시 메커니즘으로 소개되었습니다. 이후 곧이어 정확한 언러닝과 관련된 비현실적인 비용을 완화하기 위해 비정확한 방식들이 제안되었습니다. 최근에는 언러닝이 모델이 소유해서는 안 되는 지식, 즉 라이선스가 없는 저작권 자료, 부정확한 정보 또는 악성 정보와 같은 허용되지 않는 지식을 제거하기 위한 접근법으로 자주 논의되고 있습니다. 이 접근법의 핵심은 모델이 특정 악성 기능을 가지고 있지 않다면, 해당 악성 목적으로 사용될 수 없다는 것입니다. 본 논문에서는 대규모 언어 모델(LLM)에서 언러닝이 사용되는 패러다임을 재검토하고, 컨텍스트 내 학습(contextual learning)에서 발생하는 근본적인 불일치를 강조합니다. 언러닝은 훈련 단계에서 효과적인 제어 메커니즘이 될 수 있지만, 추론 단계에서 모델이 허용되지 않는 행위를 수행하는 것을 막지는 못합니다. 우리는 언러닝된 지식이 컨텍스트 내에서 다시 도입되는 '언언러닝(ununlearning)' 개념을 소개하며, 이는 모델이 잊혀진 지식을 알고 있는 것처럼 행동할 수 있게 만듭니다. 그 결과, 허용되지 않는 지식에 대한 콘텐츠 필터링이 필요하며, 심지어 정확한 언러닝 방식조차도 효과적인 콘텐츠 규제를 위해 충분하지 않음을 주장합니다. 우리는 현대 LLM에서 언언러닝의 실현 가능성을 논의하고, 더 넓은 함의를 검토합니다.
English
Exact unlearning was first introduced as a privacy mechanism that allowed a user to retract their data from machine learning models on request. Shortly after, inexact schemes were proposed to mitigate the impractical costs associated with exact unlearning. More recently unlearning is often discussed as an approach for removal of impermissible knowledge i.e. knowledge that the model should not possess such as unlicensed copyrighted, inaccurate, or malicious information. The promise is that if the model does not have a certain malicious capability, then it cannot be used for the associated malicious purpose. In this paper we revisit the paradigm in which unlearning is used for in Large Language Models (LLMs) and highlight an underlying inconsistency arising from in-context learning. Unlearning can be an effective control mechanism for the training phase, yet it does not prevent the model from performing an impermissible act during inference. We introduce a concept of ununlearning, where unlearned knowledge gets reintroduced in-context, effectively rendering the model capable of behaving as if it knows the forgotten knowledge. As a result, we argue that content filtering for impermissible knowledge will be required and even exact unlearning schemes are not enough for effective content regulation. We discuss feasibility of ununlearning for modern LLMs and examine broader implications.

Summary

AI-Generated Summary

PDF61November 28, 2024