Toxicidade dos Recursos Comuns: Curadoria de Dados de Pré-Treinamento de Código Aberto
Toxicity of the Commons: Curating Open-Source Pre-Training Data
October 29, 2024
Autores: Catherine Arnett, Eliot Jones, Ivan P. Yamshchikov, Pierre-Carl Langlais
cs.AI
Resumo
Os modelos de linguagem de grande escala de código aberto estão se tornando cada vez mais disponíveis e populares entre pesquisadores e profissionais. Embora tenham sido feitos progressos significativos em modelos de peso aberto, a prática de treinamento aberto de dados ainda não foi adotada pelos principais criadores de modelos de peso aberto. Ao mesmo tempo, os pesquisadores estão trabalhando para tornar os modelos de linguagem mais seguros. Propomos um pipeline de curadoria de dados para reduzir as saídas prejudiciais dos modelos treinados em dados de domínio público. Existem desafios únicos ao trabalhar com dados de domínio público, pois essas fontes diferem do texto da web tanto em forma quanto em conteúdo. Muitas fontes são documentos históricos e são resultado de Reconhecimento Óptico de Caracteres (OCR). Consequentemente, as abordagens de ponta para filtragem de toxicidade muitas vezes são inviáveis ou inadequadas para modelos de dados abertos. Neste artigo, apresentamos um novo pipeline totalmente de código aberto para filtragem de toxicidade de dados abertos. Nossas contribuições são triplas. Criamos um conjunto de dados de treinamento personalizado, ToxicCommons, composto por textos classificados em cinco dimensões diferentes (discriminação racial/étnica, baseada em gênero/sexo, religiosa, baseada em habilidades e violência). Utilizamos este conjunto de dados para treinar um classificador personalizado, Celadon, que pode ser usado para detectar conteúdo tóxico em dados abertos de forma mais eficiente em uma escala maior. Por fim, descrevemos a abordagem equilibrada para filtragem de conteúdo que otimiza a filtragem de segurança em relação aos dados filtrados disponíveis para treinamento.
English
Open-source large language models are becoming increasingly available and
popular among researchers and practitioners. While significant progress has
been made on open-weight models, open training data is a practice yet to be
adopted by the leading open-weight models creators. At the same time, there
researchers are working to make language models safer. We propose a data
curation pipeline to reduce harmful outputs by models trained on public domain
data. There are unique challenges to working with public domain data, as these
sources differ from web text in both form and content. Many sources are
historical documents and are the result of Optical Character Recognition (OCR).
Consequently, current state-of-the-art approaches to toxicity filtering are
often infeasible or inappropriate for open data models. In this paper, we
introduce a new fully open-source pipeline for open-data toxicity filtering.
Our contributions are threefold. We create a custom training dataset,
ToxicCommons, which is composed of texts which have been classified across five
different dimensions (racial/origin-based, gender/sex-based, religious,
ability-based discrimination, and violence). We use this dataset to train a
custom classifier, Celadon, that can be used to detect toxic content in open
data more efficiently at a larger scale. Finally, we describe the balanced
approach to content filtration that optimizes safety filtering with respect to
the filtered data available for training.Summary
AI-Generated Summary