Verständnis und Minderung von Toxizität in Bild-Text-Vortrainingsdatensätzen: Eine Fallstudie zu LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
Autoren: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
Zusammenfassung
Pretraining-Datasets sind grundlegend für die Entwicklung multimodaler Modelle, weisen jedoch oft inhärente Verzerrungen und toxische Inhalte aus den webweiten Korpora auf, aus denen sie stammen. In diesem Artikel untersuchen wir die Verbreitung von Toxizität im LLaVA-Bild-Text-Pretraining-Dataset und analysieren, wie schädliche Inhalte in verschiedenen Modalitäten auftreten. Wir präsentieren eine umfassende Analyse gängiger Toxizitätskategorien und schlagen gezielte Strategien zur Minderung vor, was zur Erstellung eines verfeinerten, toxizitätsgeminderten Datensatzes führt. Dieser Datensatz entfernt 7.531 toxische Bild-Text-Paare aus dem LLaVA-Pretraining-Dataset. Wir bieten Richtlinien für die Implementierung robuster Toxizitätserkennungspipelines. Unsere Ergebnisse unterstreichen die Notwendigkeit, aktiv toxische Inhalte – wie Hassrede, explizite Bilder und gezielte Belästigung – zu identifizieren und zu filtern, um verantwortungsbewusstere und gerechtere multimodale Systeme zu entwickeln. Der toxizitätsgeminderte Datensatz ist Open Source und steht für weitere Forschungen zur Verfügung.
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.