Compreendendo e Mitigando a Toxicidade em Conjuntos de Dados de Pré-treinamento de Imagem-Texto: Um Estudo de Caso sobre LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
Autores: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
Resumo
Os conjuntos de dados de pré-treinamento são fundamentais para o desenvolvimento de modelos multimodais, mas frequentemente apresentam vieses inerentes e conteúdo tóxico proveniente dos corpora em escala da web dos quais são extraídos. Neste artigo, investigamos a prevalência de toxicidade no conjunto de dados de pré-treinamento de imagem-texto do LLaVA, examinando como o conteúdo prejudicial se manifesta em diferentes modalidades. Apresentamos uma análise abrangente das categorias comuns de toxicidade e propomos estratégias de mitigação direcionadas, resultando na criação de um conjunto de dados refinado com toxicidade mitigada. Esse conjunto de dados remove 7.531 pares de imagem-texto tóxicos do conjunto de dados de pré-treinamento do LLaVA. Oferecemos diretrizes para a implementação de pipelines robustos de detecção de toxicidade. Nossas descobertas destacam a necessidade de identificar e filtrar ativamente conteúdo tóxico - como discurso de ódio, imagens explícitas e assédio direcionado - para construir sistemas multimodais mais responsáveis e equitativos. O conjunto de dados com toxicidade mitigada é de código aberto e está disponível para pesquisas adicionais.
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.