ChatPaper.aiChatPaper

LLM-vergeten moet vormonafhankelijk zijn.

LLM Unlearning Should Be Form-Independent

June 9, 2025
Auteurs: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI

Samenvatting

Large Language Model (LLM) unlearning heeft als doel ongewenste kennis binnen het model te wissen of te onderdrukken, wat belofte biedt voor het beheersen van schadelijke of privé-informatie om misbruik te voorkomen. Recente studies benadrukken echter de beperkte effectiviteit ervan in real-world scenario's, wat de praktische adoptie belemmert. In deze studie identificeren we een wijdverbreid probleem dat ten grondslag ligt aan veel downstream-fouten: de effectiviteit van bestaande unlearning-methoden hangt sterk af van de vorm van de trainingsvoorbeelden en slaagt er vaak niet in om te generaliseren naar alternatieve uitdrukkingen van dezelfde kennis. We karakteriseren dit probleem formeel als Form-Dependent Bias en onderzoeken systematisch de specifieke manifestatiepatronen ervan in verschillende downstream-taken. Om de prevalentie ervan te kwantificeren en toekomstig onderzoek te ondersteunen, introduceren we ORT, een nieuwe benchmark ontworpen om de robuustheid van unlearning-methoden te evalueren tegen variaties in kennisuitdrukking. De resultaten tonen aan dat Form-Dependent Bias zowel wijdverbreid als ernstig is onder de huidige technieken. We beargumenteren dat LLM unlearning vorm-onafhankelijk zou moeten zijn om de eindeloze vormen van downstream-taken aan te pakken die worden aangetroffen in real-world, veiligheidskritieke scenario's. Naar dit doel toe introduceren we Rank-one Concept Redirection (ROCR), een nieuwe trainingsvrije methode, als een veelbelovende oplossingsrichting. ROCR voert unlearning uit door zich te richten op de invarianten in downstream-taken, specifiek de geactiveerde gevaarlijke concepten. Het is in staat om modelparameters binnen enkele seconden aan te passen om de perceptie van het model van een specifiek unlearning-doelconcept om te leiden naar een ander onschadelijk concept. Uitgebreide experimenten tonen aan dat ROCR de effectiviteit van unlearning aanzienlijk verbetert in vergelijking met traditionele methoden, terwijl het zeer natuurlijke outputs genereert.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model's perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.
PDF32June 13, 2025