SynthDetoxM: Modelos de Linguagem de Longa Memória Modernos são Dados de Desintoxicação Paralela de Poucas Amostras.
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
February 10, 2025
Autores: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI
Resumo
As abordagens existentes para a desintoxicação de texto multilíngue são prejudicadas pela escassez de conjuntos de dados multilíngues paralelos. Neste trabalho, apresentamos um pipeline para a geração de dados de desintoxicação de texto paralelo multilíngue. Também introduzimos o SynthDetoxM, um conjunto de dados de desintoxicação de texto paralelo multilíngue coletado manualmente e gerado sinteticamente, composto por 16.000 pares de frases de desintoxicação de alta qualidade em alemão, francês, espanhol e russo. Os dados foram obtidos de diferentes conjuntos de dados de avaliação de toxicidade e depois reescritos com nove LLMs de código aberto modernos em um ambiente de poucas amostras. Nossos experimentos demonstram que os modelos treinados nos conjuntos de dados sintéticos produzidos têm desempenho superior aos treinados no conjunto de dados MultiParaDetox anotado por humanos, mesmo em um ambiente com poucos dados. Os modelos treinados no SynthDetoxM superam todos os LLMs avaliados em um ambiente de poucas amostras. Disponibilizamos nosso conjunto de dados e código para auxiliar em pesquisas futuras sobre desintoxicação de texto multilíngue.
English
Existing approaches to multilingual text detoxification are hampered by the
scarcity of parallel multilingual datasets. In this work, we introduce a
pipeline for the generation of multilingual parallel detoxification data. We
also introduce SynthDetoxM, a manually collected and synthetically generated
multilingual parallel text detoxification dataset comprising 16,000
high-quality detoxification sentence pairs across German, French, Spanish and
Russian. The data was sourced from different toxicity evaluation datasets and
then rewritten with nine modern open-source LLMs in few-shot setting. Our
experiments demonstrate that models trained on the produced synthetic datasets
have superior performance to those trained on the human-annotated
MultiParaDetox dataset even in data limited setting. Models trained on
SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our
dataset and code to help further research in multilingual text detoxification.