Het begrijpen en verminderen van toxiciteit in beeld-tekst vooraf getrainde datasets: Een casestudy over LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
Auteurs: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
Samenvatting
Vooraf getrainde datasets vormen de basis voor de ontwikkeling van multimodale modellen, maar bevatten vaak inherente vooroordelen en giftige inhoud afkomstig uit de web-schaal corpora waaruit ze zijn samengesteld. In dit artikel onderzoeken we de prevalentie van giftige inhoud in de LLaVA beeld-tekst vooraf getrainde dataset, waarbij we analyseren hoe schadelijke inhoud zich manifesteert in verschillende modaliteiten. We presenteren een uitgebreide analyse van veelvoorkomende categorieën van giftige inhoud en stellen gerichte mitigatiestrategieën voor, wat resulteert in de creatie van een verfijnde dataset waarin giftige inhoud is gemitigeerd. Deze dataset verwijdert 7.531 giftige beeld-tekst paren uit de LLaVA vooraf getrainde dataset. We bieden richtlijnen voor het implementeren van robuuste detectiepijplijnen voor giftige inhoud. Onze bevindingen benadrukken de noodzaak om actief giftige inhoud – zoals haatzaaiende taal, expliciete beelden en gerichte intimidatie – te identificeren en te filteren om verantwoordelijkere en rechtvaardigere multimodale systemen te bouwen. De dataset waarin giftige inhoud is gemitigeerd, is open source en beschikbaar voor verder onderzoek.
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.Summary
AI-Generated Summary