ChatPaper.aiChatPaper

SynthDetoxM: Moderne LLM's zijn Few-Shot Parallel Detoxificatie Data Annotators

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

February 10, 2025
Auteurs: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI

Samenvatting

Bestaande benaderingen voor het ontgiften van multilingual tekst worden belemmerd door de schaarste aan parallelle multilingual datasets. In dit werk introduceren we een pipeline voor de generatie van multilingual parallelle ontgiftingsdata. We introduceren ook SynthDetoxM, een handmatig verzamelde en synthetisch gegenereerde multilingual parallelle tekstontgiftingsdataset bestaande uit 16.000 hoogwaardige ontgiftingszinnenparen in het Duits, Frans, Spaans en Russisch. De data werd verzameld uit verschillende toxiciteitsevaluatiedatasets en vervolgens herschreven met negen moderne open-source LLMs in een few-shot setting. Onze experimenten tonen aan dat modellen getraind op de geproduceerde synthetische datasets betere prestaties hebben dan die getraind op de door mensen geannoteerde MultiParaDetox dataset, zelfs in een data-beperkte setting. Modellen getraind op SynthDetoxM presteren beter dan alle geëvalueerde LLMs in een few-shot setting. We stellen onze dataset en code beschikbaar om verder onderzoek naar multilingual tekstontgifting te ondersteunen.
English
Existing approaches to multilingual text detoxification are hampered by the scarcity of parallel multilingual datasets. In this work, we introduce a pipeline for the generation of multilingual parallel detoxification data. We also introduce SynthDetoxM, a manually collected and synthetically generated multilingual parallel text detoxification dataset comprising 16,000 high-quality detoxification sentence pairs across German, French, Spanish and Russian. The data was sourced from different toxicity evaluation datasets and then rewritten with nine modern open-source LLMs in few-shot setting. Our experiments demonstrate that models trained on the produced synthetic datasets have superior performance to those trained on the human-annotated MultiParaDetox dataset even in data limited setting. Models trained on SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our dataset and code to help further research in multilingual text detoxification.

Summary

AI-Generated Summary

PDF902February 11, 2025