LLMのアンラーニングは形式に依存すべきではない
LLM Unlearning Should Be Form-Independent
June 9, 2025
著者: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
要旨
大規模言語モデル(LLM)のアンラーニングは、モデル内の望ましくない知識を消去または抑制することを目的としており、有害な情報やプライベートな情報の誤用を防ぐための制御手段として期待されています。しかし、最近の研究では、現実世界のシナリオにおけるその有効性が限定的であり、実用化が妨げられていることが指摘されています。本研究では、多くの下流タスクの失敗の根底にある普遍的な問題を特定しました。既存のアンラーニング手法の有効性は、訓練サンプルの形式に大きく依存し、同じ知識の異なる表現に一般化できないことが頻繁に起こります。この問題を「形式依存バイアス(Form-Dependent Bias)」として正式に定義し、さまざまな下流タスクにおけるその具体的な現れ方を体系的に調査しました。このバイアスの普及度を定量化し、将来の研究を支援するために、知識表現のバリエーションに対するアンラーニング手法の堅牢性を評価する新しいベンチマーク「ORT」を導入しました。結果は、形式依存バイアスが現在の手法において広範かつ深刻であることを明らかにしています。
我々は、現実世界のセキュリティクリティカルなシナリオで遭遇する無数の下流タスクに対応するため、LLMのアンラーニングは形式に依存しないべきであると主張します。この目標に向けて、訓練不要の新しい手法「Rank-one Concept Redirection(ROCR)」を提案し、有望な解決策として提示します。ROCRは、下流タスクにおける不変量、特に活性化された危険な概念をターゲットとしてアンラーニングを実行します。特定のアンラーニング対象概念のモデルの認識を無害な別の概念にリダイレクトするために、数秒以内にモデルパラメータを修正することが可能です。大規模な実験により、ROCRが従来の手法と比較してアンラーニングの有効性を大幅に向上させながら、非常に自然な出力を生成することが実証されています。
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.