El desaprendizaje de los LLM debe ser independiente de la forma.
LLM Unlearning Should Be Form-Independent
June 9, 2025
Autores: Xiaotian Ye, Mengqi Zhang, Shu Wu
cs.AI
Resumen
El desaprendizaje en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) tiene como objetivo eliminar o suprimir conocimientos no deseados dentro del modelo, ofreciendo promesas para controlar información dañina o privada y prevenir su mal uso. Sin embargo, estudios recientes destacan su eficacia limitada en escenarios del mundo real, lo que dificulta su adopción práctica. En este estudio, identificamos un problema subyacente que afecta a muchos fallos en tareas posteriores: la efectividad de los métodos existentes de desaprendizaje depende en gran medida de la forma de las muestras de entrenamiento y con frecuencia no logra generalizarse a expresiones alternativas del mismo conocimiento. Caracterizamos formalmente este problema como Sesgo Dependiente de la Forma e investigamos sistemáticamente sus patrones de manifestación específicos en diversas tareas posteriores. Para cuantificar su prevalencia y apoyar investigaciones futuras, presentamos ORT, un nuevo punto de referencia diseñado para evaluar la robustez de los métodos de desaprendizaje frente a variaciones en la expresión del conocimiento. Los resultados revelan que el Sesgo Dependiente de la Forma es tanto generalizado como severo entre las técnicas actuales.
Argumentamos que el desaprendizaje en LLM debería ser independiente de la forma para abordar las innumerables expresiones de tareas posteriores que se encuentran en escenarios críticos de seguridad del mundo real. Con este objetivo, presentamos Redirección de Conceptos de Rango Uno (ROCR, por sus siglas en inglés), un método novedoso que no requiere entrenamiento, como una vía de solución prometedora. ROCR realiza el desaprendizaje al enfocarse en los invariantes de las tareas posteriores, específicamente en los conceptos peligrosos activados. Es capaz de modificar los parámetros del modelo en cuestión de segundos para redirigir la percepción del modelo sobre un concepto específico de desaprendizaje hacia otro concepto inofensivo. Experimentos extensos demuestran que ROCR mejora significativamente la efectividad del desaprendizaje en comparación con los métodos tradicionales, al tiempo que genera resultados altamente naturales.
English
Large Language Model (LLM) unlearning aims to erase or suppress undesirable
knowledge within the model, offering promise for controlling harmful or private
information to prevent misuse. However, recent studies highlight its limited
efficacy in real-world scenarios, hindering practical adoption. In this study,
we identify a pervasive issue underlying many downstream failures: the
effectiveness of existing unlearning methods heavily depends on the form of
training samples and frequently fails to generalize to alternate expressions of
the same knowledge. We formally characterize this problem as Form-Dependent
Bias and systematically investigate its specific manifestation patterns across
various downstream tasks. To quantify its prevalence and support future
research, we introduce ORT, a novel benchmark designed to evaluate the
robustness of unlearning methods against variations in knowledge expression.
Results reveal that Form-Dependent Bias is both widespread and severe among
current techniques.
We argue that LLM unlearning should be form-independent to address the
endless forms of downstream tasks encountered in real-world security-critical
scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR),
a novel training-free method, as a promising solution path. ROCR performs
unlearning by targeting the invariants in downstream tasks, specifically the
activated dangerous concepts. It is capable of modifying model parameters
within seconds to redirect the model's perception of a specific unlearning
target concept to another harmless concept. Extensive experiments demonstrate
that ROCR significantly improves unlearning effectiveness compared to
traditional methods while generating highly natural outputs.