SynthDetoxM: Los Modelos de Lenguaje de Gran Tamaño Modernos son Datos de Desintoxicación Paralela de Pocas Muestras.
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
February 10, 2025
Autores: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI
Resumen
Los enfoques existentes para la desintoxicación de texto multilingüe se ven obstaculizados por la escasez de conjuntos de datos paralelos multilingües. En este trabajo, presentamos un flujo de trabajo para la generación de datos de desintoxicación de texto paralelo multilingüe. También introducimos SynthDetoxM, un conjunto de datos de desintoxicación de texto paralelo multilingüe recopilado manualmente y generado sintéticamente que consta de 16,000 pares de oraciones de desintoxicación de alta calidad en alemán, francés, español y ruso. Los datos se obtuvieron de diferentes conjuntos de datos de evaluación de toxicidad y luego se reescribieron con nueve LLMs de código abierto modernos en un entorno de pocos disparos. Nuestros experimentos demuestran que los modelos entrenados en los conjuntos de datos sintéticos producidos tienen un rendimiento superior a los entrenados en el conjunto de datos MultiParaDetox anotado por humanos, incluso en entornos con limitación de datos. Los modelos entrenados en SynthDetoxM superan a todos los LLMs evaluados en un entorno de pocos disparos. Publicamos nuestro conjunto de datos y código para ayudar a promover la investigación adicional en la desintoxicación de texto multilingüe.
English
Existing approaches to multilingual text detoxification are hampered by the
scarcity of parallel multilingual datasets. In this work, we introduce a
pipeline for the generation of multilingual parallel detoxification data. We
also introduce SynthDetoxM, a manually collected and synthetically generated
multilingual parallel text detoxification dataset comprising 16,000
high-quality detoxification sentence pairs across German, French, Spanish and
Russian. The data was sourced from different toxicity evaluation datasets and
then rewritten with nine modern open-source LLMs in few-shot setting. Our
experiments demonstrate that models trained on the produced synthetic datasets
have superior performance to those trained on the human-annotated
MultiParaDetox dataset even in data limited setting. Models trained on
SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our
dataset and code to help further research in multilingual text detoxification.