<think> Así que reemplacemos esta frase con un insulto... </think> Lecciones aprendidas de la generación de textos tóxicos con LLMs
<think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs
September 10, 2025
Autores: Sergey Pletenev, Daniil Moskovskiy, Alexander Panchenko
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) modernos son excelentes para generar datos sintéticos. Sin embargo, su desempeño en dominios sensibles, como la desintoxicación de texto, no ha recibido la atención adecuada por parte de la comunidad científica. Este artículo explora la posibilidad de utilizar datos tóxicos sintéticos generados por LLMs como una alternativa a los datos generados por humanos para entrenar modelos de desintoxicación. Utilizando modelos de Llama 3 y Qwen con parches de activación, generamos contrapartes tóxicas sintéticas para textos neutrales de los conjuntos de datos ParaDetox y SST-2. Nuestros experimentos muestran que los modelos ajustados con datos sintéticos tienen un desempeño consistentemente inferior al de aquellos entrenados con datos humanos, con una caída en el rendimiento de hasta un 30% en métricas conjuntas. La causa principal se identifica como una brecha crítica en la diversidad léxica: los LLMs generan contenido tóxico utilizando un vocabulario pequeño y repetitivo de insultos que no logra capturar los matices y la variedad de la toxicidad humana. Estos hallazgos resaltan las limitaciones de los LLMs actuales en este dominio y enfatizan la importancia continua de los datos diversos y anotados por humanos para construir sistemas de desintoxicación robustos.
English
Modern Large Language Models (LLMs) are excellent at generating synthetic
data. However, their performance in sensitive domains such as text
detoxification has not received proper attention from the scientific community.
This paper explores the possibility of using LLM-generated synthetic toxic data
as an alternative to human-generated data for training models for
detoxification. Using Llama 3 and Qwen activation-patched models, we generated
synthetic toxic counterparts for neutral texts from ParaDetox and SST-2
datasets. Our experiments show that models fine-tuned on synthetic data
consistently perform worse than those trained on human data, with a drop in
performance of up to 30% in joint metrics. The root cause is identified as a
critical lexical diversity gap: LLMs generate toxic content using a small,
repetitive vocabulary of insults that fails to capture the nuances and variety
of human toxicity. These findings highlight the limitations of current LLMs in
this domain and emphasize the continued importance of diverse, human-annotated
data for building robust detoxification systems.