ChatPaper.aiChatPaper

SynthDetoxM : Les LLM modernes sont des données de désintoxication parallèle à quelques tirs annotées.

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

February 10, 2025
Auteurs: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI

Résumé

Les approches existantes pour la détoxification de texte multilingue sont entravées par la rareté des ensembles de données multilingues parallèles. Dans ce travail, nous présentons un pipeline pour la génération de données de détoxification de texte multilingue parallèle. Nous introduisons également SynthDetoxM, un ensemble de données de détoxification de texte multilingue parallèle collecté manuellement et généré de manière synthétique, comprenant 16 000 paires de phrases de détoxification de haute qualité en allemand, français, espagnol et russe. Les données ont été extraites de différents ensembles de données d'évaluation de toxicité, puis réécrites avec neuf LLM open source modernes en configuration few-shot. Nos expériences démontrent que les modèles entraînés sur les ensembles de données synthétiques produits ont des performances supérieures à ceux entraînés sur l'ensemble de données MultiParaDetox annoté par l'homme, même en cas de données limitées. Les modèles entraînés sur SynthDetoxM surpassent tous les LLM évalués en configuration few-shot. Nous mettons à disposition notre ensemble de données et notre code pour aider à la recherche ultérieure en détoxification de texte multilingue.
English
Existing approaches to multilingual text detoxification are hampered by the scarcity of parallel multilingual datasets. In this work, we introduce a pipeline for the generation of multilingual parallel detoxification data. We also introduce SynthDetoxM, a manually collected and synthetically generated multilingual parallel text detoxification dataset comprising 16,000 high-quality detoxification sentence pairs across German, French, Spanish and Russian. The data was sourced from different toxicity evaluation datasets and then rewritten with nine modern open-source LLMs in few-shot setting. Our experiments demonstrate that models trained on the produced synthetic datasets have superior performance to those trained on the human-annotated MultiParaDetox dataset even in data limited setting. Models trained on SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our dataset and code to help further research in multilingual text detoxification.

Summary

AI-Generated Summary

PDF902February 11, 2025