ChatPaper.aiChatPaper

Comprensión y Mitigación de la Toxicidad en Conjuntos de Datos de Pretrenamiento de Imagen-Texto: Un Estudio de Caso sobre LLaVA

Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9, 2025
Autores: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI

Resumen

Los conjuntos de datos de preentrenamiento son fundamentales para el desarrollo de modelos multimodales, aunque a menudo contienen sesgos inherentes y contenido tóxico proveniente de los corpus a escala web de los que se obtienen. En este artículo, investigamos la prevalencia de toxicidad en el conjunto de datos de preentrenamiento de imágenes y texto de LLaVA, examinando cómo se manifiesta el contenido dañino en diferentes modalidades. Presentamos un análisis exhaustivo de las categorías comunes de toxicidad y proponemos estrategias de mitigación específicas, lo que resulta en la creación de un conjunto de datos refinado con toxicidad mitigada. Este conjunto de datos elimina 7,531 pares de imágenes y texto tóxicos del conjunto de preentrenamiento de LLaVA. Ofrecemos directrices para implementar pipelines robustos de detección de toxicidad. Nuestros hallazgos subrayan la necesidad de identificar y filtrar activamente contenido tóxico —como discursos de odio, imágenes explícitas y acoso dirigido— para construir sistemas multimodales más responsables y equitativos. El conjunto de datos con toxicidad mitigada es de código abierto y está disponible para futuras investigaciones.
English
Pretraining datasets are foundational to the development of multimodal models, yet they often have inherent biases and toxic content from the web-scale corpora they are sourced from. In this paper, we investigate the prevalence of toxicity in LLaVA image-text pretraining dataset, examining how harmful content manifests in different modalities. We present a comprehensive analysis of common toxicity categories and propose targeted mitigation strategies, resulting in the creation of a refined toxicity-mitigated dataset. This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training dataset. We offer guidelines for implementing robust toxicity detection pipelines. Our findings underscore the need to actively identify and filter toxic content - such as hate speech, explicit imagery, and targeted harassment - to build more responsible and equitable multimodal systems. The toxicity-mitigated dataset is open source and is available for further research.

Summary

AI-Generated Summary

PDF12May 15, 2025