O esquecimento em LLMs deve ser independente da forma.
LLM Unlearning Should Be Form-Independent
June 9, 2025
Autores: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
Resumo
O esquecimento em Modelos de Linguagem de Grande Escala (LLMs) visa apagar ou suprimir conhecimentos indesejados dentro do modelo, oferecendo potencial para controlar informações prejudiciais ou privadas e prevenir seu uso inadequado. No entanto, estudos recentes destacam sua eficácia limitada em cenários do mundo real, dificultando sua adoção prática. Neste estudo, identificamos um problema subjacente a muitas falhas em tarefas subsequentes: a eficácia dos métodos de esquecimento existentes depende fortemente da forma das amostras de treinamento e frequentemente falha em generalizar para expressões alternativas do mesmo conhecimento. Caracterizamos formalmente esse problema como Viés Dependente da Forma e investigamos sistematicamente seus padrões de manifestação específicos em várias tarefas subsequentes. Para quantificar sua prevalência e apoiar pesquisas futuras, introduzimos ORT, um novo benchmark projetado para avaliar a robustez dos métodos de esquecimento contra variações na expressão do conhecimento. Os resultados revelam que o Viés Dependente da Forma é tanto generalizado quanto severo entre as técnicas atuais.
Argumentamos que o esquecimento em LLMs deve ser independente da forma para abordar as infinitas variações de tarefas subsequentes encontradas em cenários críticos de segurança do mundo real. Em direção a esse objetivo, introduzimos o Redirecionamento de Conceito de Rank Um (ROCR), um novo método sem necessidade de treinamento, como uma solução promissora. O ROCR realiza o esquecimento direcionando os invariantes nas tarefas subsequentes, especificamente os conceitos perigosos ativados. Ele é capaz de modificar os parâmetros do modelo em segundos para redirecionar a percepção do modelo sobre um conceito específico de esquecimento para outro conceito inofensivo. Experimentos extensivos demonstram que o ROCR melhora significativamente a eficácia do esquecimento em comparação com métodos tradicionais, gerando saídas altamente naturais.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.