Toxicidad de los Comunes: Curación de Datos de Preentrenamiento de Código Abierto
Toxicity of the Commons: Curating Open-Source Pre-Training Data
October 29, 2024
Autores: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
cs.AI
Resumen
Los modelos de lenguaje grandes de código abierto están cada vez más disponibles y populares entre investigadores y profesionales. Aunque se ha logrado un progreso significativo en modelos de peso abierto, el entrenamiento abierto de datos es una práctica que aún no ha sido adoptada por los principales creadores de modelos de peso abierto. Al mismo tiempo, los investigadores están trabajando para hacer que los modelos de lenguaje sean más seguros. Proponemos un proceso de curación de datos para reducir las salidas dañinas de los modelos entrenados con datos de dominio público. Existen desafíos únicos al trabajar con datos de dominio público, ya que estas fuentes difieren del texto web tanto en forma como en contenido. Muchas fuentes son documentos históricos y son el resultado de Reconocimiento Óptico de Caracteres (OCR). Por lo tanto, los enfoques actuales de vanguardia para la filtración de toxicidad a menudo son inviables o inapropiados para modelos de datos abiertos. En este documento, presentamos un nuevo proceso completamente de código abierto para la filtración de toxicidad en datos abiertos. Nuestras contribuciones son triples. Creamos un conjunto de datos de entrenamiento personalizado, ToxicCommons, compuesto por textos clasificados en cinco dimensiones diferentes (discriminación racial/étnica, de género/sexo, religiosa, basada en habilidades y violencia). Utilizamos este conjunto de datos para entrenar un clasificador personalizado, Celadon, que puede detectar contenido tóxico en datos abiertos de manera más eficiente y a mayor escala. Finalmente, describimos un enfoque equilibrado para la filtración de contenido que optimiza la seguridad con respecto a los datos filtrados disponibles para el entrenamiento.
English
Open-source large language models are becoming increasingly available and
popular among researchers and practitioners. While significant progress has
been made on open-weight models, open training data is a practice yet to be
adopted by the leading open-weight models creators. At the same time, there
researchers are working to make language models safer. We propose a data
curation pipeline to reduce harmful outputs by models trained on public domain
data. There are unique challenges to working with public domain data, as these
sources differ from web text in both form and content. Many sources are
historical documents and are the result of Optical Character Recognition (OCR).
Consequently, current state-of-the-art approaches to toxicity filtering are
often infeasible or inappropriate for open data models. In this paper, we
introduce a new fully open-source pipeline for open-data toxicity filtering.
Our contributions are threefold. We create a custom training dataset,
ToxicCommons, which is composed of texts which have been classified across five
different dimensions (racial/origin-based, gender/sex-based, religious,
ability-based discrimination, and violence). We use this dataset to train a
custom classifier, Celadon, that can be used to detect toxic content in open
data more efficiently at a larger scale. Finally, we describe the balanced
approach to content filtration that optimizes safety filtering with respect to
the filtered data available for training.Summary
AI-Generated Summary