SynthDetoxM: I moderni LLM sono dati di disintossicazione paralleli a pochi scatti per annotatori
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
February 10, 2025
Autori: Daniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko
cs.AI
Abstract
Gli approcci esistenti per la detossificazione di testi multilingue sono ostacolati dalla scarsità di set di dati multilingue paralleli. In questo lavoro, presentiamo un pipeline per la generazione di dati di detossificazione multilingue paralleli. Introduciamo inoltre SynthDetoxM, un dataset di detossificazione di testi multilingue raccolto manualmente e generato sinteticamente, composto da 16.000 coppie di frasi di detossificazione di alta qualità in tedesco, francese, spagnolo e russo. I dati sono stati ottenuti da diversi set di dati di valutazione della tossicità e successivamente riscritti con nove moderni LLM open-source in un contesto di few-shot. I nostri esperimenti dimostrano che i modelli addestrati sui dataset sintetici prodotti hanno prestazioni superiori rispetto a quelli addestrati sul dataset MultiParaDetox annotato manualmente, anche in condizioni di limitatezza dei dati. I modelli addestrati su SynthDetoxM superano tutti gli LLM valutati in un contesto di few-shot. Rilasciamo il nostro dataset e il codice per contribuire ulteriormente alla ricerca sulla detossificazione di testi multilingue.
English
Existing approaches to multilingual text detoxification are hampered by the
scarcity of parallel multilingual datasets. In this work, we introduce a
pipeline for the generation of multilingual parallel detoxification data. We
also introduce SynthDetoxM, a manually collected and synthetically generated
multilingual parallel text detoxification dataset comprising 16,000
high-quality detoxification sentence pairs across German, French, Spanish and
Russian. The data was sourced from different toxicity evaluation datasets and
then rewritten with nine modern open-source LLMs in few-shot setting. Our
experiments demonstrate that models trained on the produced synthetic datasets
have superior performance to those trained on the human-annotated
MultiParaDetox dataset even in data limited setting. Models trained on
SynthDetoxM outperform all evaluated LLMs in few-shot setting. We release our
dataset and code to help further research in multilingual text detoxification.Summary
AI-Generated Summary