La ablación no es Suficiente para Emular DPO: Cómo la Dinámica de Neuronas Impulsa la Reducción de Toxicidad
Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction
November 10, 2024
Autores: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi
cs.AI
Resumen
Los algoritmos de ajuste fino de seguridad se utilizan comúnmente para refinar modelos de lenguaje con el fin de reducir salidas dañinas, pero los mecanismos internos exactos de cómo estos modelos logran esto siguen siendo poco claros. Al estudiar la optimización de preferencias directas (OPD) para la reducción de toxicidad, las explicaciones actuales afirman que la OPD funciona al atenuar las neuronas MLP más tóxicas para aprender un desplazamiento que evite regiones tóxicas en el flujo residual. Sin embargo, al eliminar las neuronas más tóxicas y aplicar parches de activación, encontramos que esta explicación es incompleta. Al proyectar los cambios de activación de las neuronas en una sonda de toxicidad, descubrimos que solo el 31.8\% de la reducción de toxicidad proviene de neuronas tóxicas atenuadas. En cambio, la OPD reduce la toxicidad acumulando efectos en múltiples grupos de neuronas, tanto disminuyendo la escritura en la dirección tóxica como promoviendo la anti-toxicidad en el flujo residual. Además, la OPD proporciona ajustes ruidosos a las activaciones de las neuronas, con muchas neuronas aumentando en realidad la toxicidad. Esto indica que la OPD es un proceso de equilibrio entre efectos opuestos de neuronas para lograr la reducción de toxicidad.
English
Safety fine-tuning algorithms are commonly used to fine-tune language models
to reduce harmful outputs, but the exact internal mechanisms of how those
models achieve this remain unclear. In studying direct preference optimisation
(DPO) for toxicity reduction, current explanations claim that DPO works by
dampening the most toxic MLP neurons to learn an offset to avert toxic regions
in the residual stream. However, by ablating the most toxic neurons and
applying activation patching, we find this explanation incomplete. By
projecting neuron activation changes onto a toxicity probe, we find that only
31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO
reduces toxicity by accumulating effects across multiple neuron groups, both
reducing writing in the toxic direction and promoting anti-toxicity in the
residual stream. Moreover, DPO gives noisy adjustments to neuron activations,
with many neurons actually increasing toxicity. This indicates that DPO is a
balancing process between opposing neuron effects to achieve toxicity
reduction.Summary
AI-Generated Summary