Ottimizzazione delle Preferenze per la Mitigazione della Tossicità Generalizzata tra le Lingue
Preference Tuning For Toxicity Mitigation Generalizes Across Languages
June 23, 2024
Autori: Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach
cs.AI
Abstract
La detossificazione dei modelli linguistici multilingue di grandi dimensioni (LLM) è diventata cruciale a causa del loro crescente utilizzo globale. In questo lavoro, esploriamo la generalizzazione cross-linguale zero-shot del preference tuning nella detossificazione degli LLM. A differenza di studi precedenti che mostrano una limitata generalizzazione cross-linguale per altre attività di sicurezza, dimostriamo che l'addestramento con Direct Preference Optimization (DPO) utilizzando solo dati in inglese può ridurre significativamente la tossicità nelle generazioni aperte multilingue. Ad esempio, la probabilità che mGPT-1.3B generi continuazioni tossiche scende dal 46,8% al 3,9% in 17 lingue diverse dopo l'addestramento. I nostri risultati si estendono anche ad altri LLM multilingue, come BLOOM, Llama3 e Aya-23. Utilizzando strumenti di interpretabilità meccanicistica come l'intervento causale e l'analisi delle attivazioni, abbiamo identificato la proprietà di dualità multilingue degli strati MLP negli LLM, che spiega la generalizzazione cross-linguale del DPO. Infine, mostriamo che il recupero di frasi bilingue può prevedere la trasferibilità cross-linguale del preference tuning con DPO.
English
Detoxifying multilingual Large Language Models (LLMs) has become crucial due
to their increasing global use. In this work, we explore zero-shot
cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike
previous studies that show limited cross-lingual generalization for other
safety tasks, we demonstrate that Direct Preference Optimization (DPO) training
with only English data can significantly reduce toxicity in multilingual
open-ended generations. For example, the probability of mGPT-1.3B generating
toxic continuations drops from 46.8% to 3.9% across 17 different languages
after training. Our results also extend to other multilingual LLMs, such as
BLOOM, Llama3, and Aya-23. Using mechanistic interpretability tools like causal
intervention and activation analysis, we identified the dual multilinguality
property of MLP layers in LLMs, which explains the cross-lingual generalization
of DPO. Finally, we show that bilingual sentence retrieval can predict the
cross-lingual transferability of DPO preference tuning.