Präferenzabstimmung zur Minderung von Toxizität generalisiert über Sprachen hinweg.
Preference Tuning For Toxicity Mitigation Generalizes Across Languages
June 23, 2024
Autoren: Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach
cs.AI
Zusammenfassung
Die Entgiftung von mehrsprachigen Large Language Models (LLMs) ist aufgrund ihrer zunehmenden globalen Verwendung entscheidend geworden. In dieser Arbeit untersuchen wir die Null-Schuss-querlinguale Verallgemeinerung der Präferenzabstimmung zur Entgiftung von LLMs. Im Gegensatz zu früheren Studien, die eine begrenzte querlinguale Verallgemeinerung für andere Sicherheitsaufgaben zeigen, zeigen wir, dass das Training mit Direkter Präferenzoptimierung (DPO) nur mit englischen Daten die Toxizität bei mehrsprachigen offenen Generierungen signifikant reduzieren kann. Zum Beispiel sinkt die Wahrscheinlichkeit, dass mGPT-1.3B toxische Fortsetzungen generiert, nach dem Training von 46,8% auf 3,9% in 17 verschiedenen Sprachen. Unsere Ergebnisse erstrecken sich auch auf andere mehrsprachige LLMs wie BLOOM, Llama3 und Aya-23. Unter Verwendung mechanistischer Interpretierbarkeitswerkzeuge wie kausaler Intervention und Aktivierungsanalyse identifizierten wir die duale Mehrsprachigkeits-Eigenschaft der MLP-Schichten in LLMs, die die querlinguale Verallgemeinerung von DPO erklärt. Schließlich zeigen wir, dass die zweisprachige Satzrückgewinnung die querlinguale Übertragbarkeit der DPO-Präferenzabstimmung vorhersagen kann.
English
Detoxifying multilingual Large Language Models (LLMs) has become crucial due
to their increasing global use. In this work, we explore zero-shot
cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike
previous studies that show limited cross-lingual generalization for other
safety tasks, we demonstrate that Direct Preference Optimization (DPO) training
with only English data can significantly reduce toxicity in multilingual
open-ended generations. For example, the probability of mGPT-1.3B generating
toxic continuations drops from 46.8% to 3.9% across 17 different languages
after training. Our results also extend to other multilingual LLMs, such as
BLOOM, Llama3, and Aya-23. Using mechanistic interpretability tools like causal
intervention and activation analysis, we identified the dual multilinguality
property of MLP layers in LLMs, which explains the cross-lingual generalization
of DPO. Finally, we show that bilingual sentence retrieval can predict the
cross-lingual transferability of DPO preference tuning.Summary
AI-Generated Summary