Настройка предпочтений для смягчения токсичности обобщается на разные языки.
Preference Tuning For Toxicity Mitigation Generalizes Across Languages
June 23, 2024
Авторы: Xiaochen Li, Zheng-Xin Yong, Stephen H. Bach
cs.AI
Аннотация
Детоксикация многоязычных моделей больших языковых объемов (LLM) стала крайне важной из-за их все более широкого мирового использования. В данной работе мы исследуем перекрестную обобщаемость настройки предпочтений в детоксикации LLM методом нулевой настройки межъязыковой. В отличие от предыдущих исследований, которые показывают ограниченную перекрестную обобщаемость для других задач безопасности, мы демонстрируем, что обучение прямой оптимизации предпочтений (DPO) только на английских данных может значительно снизить токсичность в многоязычных открытых генерациях. Например, вероятность того, что mGPT-1.3B сгенерирует токсичные продолжения, снижается с 46,8% до 3,9% на 17 различных языках после обучения. Наши результаты также распространяются на другие многоязычные LLM, такие как BLOOM, Llama3 и Aya-23. Используя механистические инструменты интерпретации, такие как причинное вмешательство и анализ активации, мы выявили двойственное многоязычное свойство слоев MLP в LLM, что объясняет перекрестную обобщаемость DPO. Наконец, мы показываем, что двуязычное извлечение предложений может предсказать переносимость через языковые границы настройки предпочтений DPO.
English
Detoxifying multilingual Large Language Models (LLMs) has become crucial due
to their increasing global use. In this work, we explore zero-shot
cross-lingual generalization of preference tuning in detoxifying LLMs. Unlike
previous studies that show limited cross-lingual generalization for other
safety tasks, we demonstrate that Direct Preference Optimization (DPO) training
with only English data can significantly reduce toxicity in multilingual
open-ended generations. For example, the probability of mGPT-1.3B generating
toxic continuations drops from 46.8% to 3.9% across 17 different languages
after training. Our results also extend to other multilingual LLMs, such as
BLOOM, Llama3, and Aya-23. Using mechanistic interpretability tools like causal
intervention and activation analysis, we identified the dual multilinguality
property of MLP layers in LLMs, which explains the cross-lingual generalization
of DPO. Finally, we show that bilingual sentence retrieval can predict the
cross-lingual transferability of DPO preference tuning.Summary
AI-Generated Summary