O esquecimento em LLMs deve ser independente da forma.

Resumo

O esquecimento em Modelos de Linguagem de Grande Escala (LLMs) visa apagar ou suprimir conhecimentos indesejados dentro do modelo, oferecendo potencial para controlar informações prejudiciais ou privadas e prevenir seu uso inadequado. No entanto, estudos recentes destacam sua eficácia limitada em cenários do mundo real, dificultando sua adoção prática. Neste estudo, identificamos um problema subjacente a muitas falhas em tarefas subsequentes: a eficácia dos métodos de esquecimento existentes depende fortemente da forma das amostras de treinamento e frequentemente falha em generalizar para expressões alternativas do mesmo conhecimento. Caracterizamos formalmente esse problema como Viés Dependente da Forma e investigamos sistematicamente seus padrões de manifestação específicos em várias tarefas subsequentes. Para quantificar sua prevalência e apoiar pesquisas futuras, introduzimos ORT, um novo benchmark projetado para avaliar a robustez dos métodos de esquecimento contra variações na expressão do conhecimento. Os resultados revelam que o Viés Dependente da Forma é tanto generalizado quanto severo entre as técnicas atuais. Argumentamos que o esquecimento em LLMs deve ser independente da forma para abordar as infinitas variações de tarefas subsequentes encontradas em cenários críticos de segurança do mundo real. Em direção a esse objetivo, introduzimos o Redirecionamento de Conceito de Rank Um (ROCR), um novo método sem necessidade de treinamento, como uma solução promissora. O ROCR realiza o esquecimento direcionando os invariantes nas tarefas subsequentes, especificamente os conceitos perigosos ativados. Ele é capaz de modificar os parâmetros do modelo em segundos para redirecionar a percepção do modelo sobre um conceito específico de esquecimento para outro conceito inofensivo. Experimentos extensivos demonstram que o ROCR melhora significativamente a eficácia do esquecimento em comparação com métodos tradicionais, gerando saídas altamente naturais.

English

Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model's perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.

O esquecimento em LLMs deve ser independente da forma.

LLM Unlearning Should Be Form-Independent

Resumo

Support