Абляция недостаточна для эмуляции DPO: как динамика нейронов влияет на снижение токсичности
Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction
November 10, 2024
Авторы: Yushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi
cs.AI
Аннотация
Алгоритмы настройки безопасности часто используются для настройки языковых моделей с целью снижения вредных результатов, однако точные внутренние механизмы, с помощью которых эти модели достигают этого, остаются неясными. Изучая прямую оптимизацию предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO работает путем подавления наиболее токсичных нейронов MLP для изучения сдвига с целью избежания токсичных областей в остаточном потоке. Однако, путем абляции наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы обнаружили, что лишь 31,8\% снижения токсичности происходит за счет подавленных токсичных нейронов. Вместо этого DPO снижает токсичность, накапливая эффекты по всем группам нейронов, как снижая написание в токсичном направлении, так и поощряя антитоксичность в остаточном потоке. Более того, DPO предоставляет шумные корректировки активации нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансировки между противоположными эффектами нейронов для достижения снижения токсичности.
English
Safety fine-tuning algorithms are commonly used to fine-tune language models
to reduce harmful outputs, but the exact internal mechanisms of how those
models achieve this remain unclear. In studying direct preference optimisation
(DPO) for toxicity reduction, current explanations claim that DPO works by
dampening the most toxic MLP neurons to learn an offset to avert toxic regions
in the residual stream. However, by ablating the most toxic neurons and
applying activation patching, we find this explanation incomplete. By
projecting neuron activation changes onto a toxicity probe, we find that only
31.8\% of toxicity reduction comes from dampened toxic neurons. Instead, DPO
reduces toxicity by accumulating effects across multiple neuron groups, both
reducing writing in the toxic direction and promoting anti-toxicity in the
residual stream. Moreover, DPO gives noisy adjustments to neuron activations,
with many neurons actually increasing toxicity. This indicates that DPO is a
balancing process between opposing neuron effects to achieve toxicity
reduction.Summary
AI-Generated Summary