SynthDetoxM: Moderne LLM's zijn Few-Shot Parallel Detoxificatie Data Annotators
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
February 10, 2025
Auteurs: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI
Samenvatting
Bestaande benaderingen voor het ontgiften van multilingual tekst worden belemmerd door de schaarste aan parallelle multilingual datasets. In dit werk introduceren we een pipeline voor de generatie van multilingual parallelle ontgiftingsdata. We introduceren ook SynthDetoxM, een handmatig verzamelde en synthetisch gegenereerde multilingual parallelle tekstontgiftingsdataset bestaande uit 16.000 hoogwaardige ontgiftingszinnenparen in het Duits, Frans, Spaans en Russisch. De data werd verzameld uit verschillende toxiciteitsevaluatiedatasets en vervolgens herschreven met negen moderne open-source LLMs in een few-shot setting. Onze experimenten tonen aan dat modellen getraind op de geproduceerde synthetische datasets betere prestaties hebben dan die getraind op de door mensen geannoteerde MultiParaDetox dataset, zelfs in een data-beperkte setting. Modellen getraind op SynthDetoxM presteren beter dan alle geëvalueerde LLMs in een few-shot setting. We stellen onze dataset en code beschikbaar om verder onderzoek naar multilingual tekstontgifting te ondersteunen.
English
Existing approaches to multilingual text detoxification are hampered by the
scarcity of parallel multilingual datasets. In this work, we introduce a
pipeline for the generation of multilingual parallel detoxification data. We
also introduce SynthDetoxM, a manually collected and synthetically generated
multilingual parallel text detoxification dataset comprising 16,000
high-quality detoxification sentence pairs across German, French, Spanish and
Russian. The data was sourced from different toxicity evaluation datasets and
then rewritten with nine modern open-source LLMs in few-shot setting. Our
experiments demonstrate that models trained on the produced synthetic datasets
have superior performance to those trained on the human-annotated
MultiParaDetox dataset even in data limited setting. Models trained on
SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our
dataset and code to help further research in multilingual text detoxification.Summary
AI-Generated Summary