SynthDetoxM: Modelos de Linguagem de Longa Memória Modernos são Dados de Desintoxicação Paralela de Poucas Amostras.

Resumo

As abordagens existentes para a desintoxicação de texto multilíngue são prejudicadas pela escassez de conjuntos de dados multilíngues paralelos. Neste trabalho, apresentamos um pipeline para a geração de dados de desintoxicação de texto paralelo multilíngue. Também introduzimos o SynthDetoxM, um conjunto de dados de desintoxicação de texto paralelo multilíngue coletado manualmente e gerado sinteticamente, composto por 16.000 pares de frases de desintoxicação de alta qualidade em alemão, francês, espanhol e russo. Os dados foram obtidos de diferentes conjuntos de dados de avaliação de toxicidade e depois reescritos com nove LLMs de código aberto modernos em um ambiente de poucas amostras. Nossos experimentos demonstram que os modelos treinados nos conjuntos de dados sintéticos produzidos têm desempenho superior aos treinados no conjunto de dados MultiParaDetox anotado por humanos, mesmo em um ambiente com poucos dados. Os modelos treinados no SynthDetoxM superam todos os LLMs avaliados em um ambiente de poucas amostras. Disponibilizamos nosso conjunto de dados e código para auxiliar em pesquisas futuras sobre desintoxicação de texto multilíngue.

English

Existing approaches to multilingual text detoxification are hampered by the scarcity of parallel multilingual datasets. In this work, we introduce a pipeline for the generation of multilingual parallel detoxification data. We also introduce SynthDetoxM, a manually collected and synthetically generated multilingual parallel text detoxification dataset comprising 16,000 high-quality detoxification sentence pairs across German, French, Spanish and Russian. The data was sourced from different toxicity evaluation datasets and then rewritten with nine modern open-source LLMs in few-shot setting. Our experiments demonstrate that models trained on the produced synthetic datasets have superior performance to those trained on the human-annotated MultiParaDetox dataset even in data limited setting. Models trained on SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our dataset and code to help further research in multilingual text detoxification.

SynthDetoxM: Modelos de Linguagem de Longa Memória Modernos são Dados de Desintoxicação Paralela de Poucas Amostras.

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

Resumo

Support