Comprensione e Mitigazione della Tossicità nei Dataset di Pre-addestramento Immagine-Testo: Uno Studio su LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
Autori: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
Abstract
I dataset di pretraining sono fondamentali per lo sviluppo di modelli multimodali, ma spesso presentano bias intrinseci e contenuti tossici derivanti dai corpora su scala web da cui sono estratti. In questo articolo, indaghiamo la prevalenza di tossicità nel dataset di pretraining immagine-testo LLaVA, esaminando come i contenuti dannosi si manifestano in diverse modalità. Presentiamo un'analisi completa delle categorie comuni di tossicità e proponiamo strategie mirate di mitigazione, che portano alla creazione di un dataset raffinato con tossicità ridotta. Questo dataset rimuove 7.531 coppie immagine-testo tossiche dal dataset di pretraining LLaVA. Forniamo linee guida per implementare pipeline robuste di rilevamento della tossicità. I nostri risultati sottolineano la necessità di identificare e filtrare attivamente contenuti tossici - come discorsi d'odio, immagini esplicite e molestie mirate - per costruire sistemi multimodali più responsabili ed equi. Il dataset con tossicità mitigata è open source e disponibile per ulteriori ricerche.
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.