Toxicidade dos Recursos Comuns: Curadoria de Dados de Pré-Treinamento de Código Aberto

Resumo

Os modelos de linguagem de grande escala de código aberto estão se tornando cada vez mais disponíveis e populares entre pesquisadores e profissionais. Embora tenham sido feitos progressos significativos em modelos de peso aberto, a prática de treinamento aberto de dados ainda não foi adotada pelos principais criadores de modelos de peso aberto. Ao mesmo tempo, os pesquisadores estão trabalhando para tornar os modelos de linguagem mais seguros. Propomos um pipeline de curadoria de dados para reduzir as saídas prejudiciais dos modelos treinados em dados de domínio público. Existem desafios únicos ao trabalhar com dados de domínio público, pois essas fontes diferem do texto da web tanto em forma quanto em conteúdo. Muitas fontes são documentos históricos e são resultado de Reconhecimento Óptico de Caracteres (OCR). Consequentemente, as abordagens de ponta para filtragem de toxicidade muitas vezes são inviáveis ou inadequadas para modelos de dados abertos. Neste artigo, apresentamos um novo pipeline totalmente de código aberto para filtragem de toxicidade de dados abertos. Nossas contribuições são triplas. Criamos um conjunto de dados de treinamento personalizado, ToxicCommons, composto por textos classificados em cinco dimensões diferentes (discriminação racial/étnica, baseada em gênero/sexo, religiosa, baseada em habilidades e violência). Utilizamos este conjunto de dados para treinar um classificador personalizado, Celadon, que pode ser usado para detectar conteúdo tóxico em dados abertos de forma mais eficiente em uma escala maior. Por fim, descrevemos a abordagem equilibrada para filtragem de conteúdo que otimiza a filtragem de segurança em relação aos dados filtrados disponíveis para treinamento.

English

Open-source large language models are becoming increasingly available and popular among researchers and practitioners. While significant progress has been made on open-weight models, open training data is a practice yet to be adopted by the leading open-weight models creators. At the same time, there researchers are working to make language models safer. We propose a data curation pipeline to reduce harmful outputs by models trained on public domain data. There are unique challenges to working with public domain data, as these sources differ from web text in both form and content. Many sources are historical documents and are the result of Optical Character Recognition (OCR). Consequently, current state-of-the-art approaches to toxicity filtering are often infeasible or inappropriate for open data models. In this paper, we introduce a new fully open-source pipeline for open-data toxicity filtering. Our contributions are threefold. We create a custom training dataset, ToxicCommons, which is composed of texts which have been classified across five different dimensions (racial/origin-based, gender/sex-based, religious, ability-based discrimination, and violence). We use this dataset to train a custom classifier, Celadon, that can be used to detect toxic content in open data more efficiently at a larger scale. Finally, we describe the balanced approach to content filtration that optimizes safety filtering with respect to the filtered data available for training.

Toxicidade dos Recursos Comuns: Curadoria de Dados de Pré-Treinamento de Código Aberto

Toxicity of the Commons: Curating Open-Source Pre-Training Data

Resumo

Support