画像-テキスト事前学習データセットにおける毒性の理解と緩和:LLaVAの事例研究
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
著者: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
要旨
事前学習データセットはマルチモーダルモデルの開発において基盤となるものですが、それらはウェブ規模のコーパスから取得されるため、しばしば内在的なバイアスや有害なコンテンツを含んでいます。本論文では、LLaVA画像-テキスト事前学習データセットにおける有害性の蔓延状況を調査し、異なるモダリティにおいて有害なコンテンツがどのように現れるかを検証します。一般的な有害性カテゴリーの包括的な分析を提示し、特定の緩和策を提案することで、精製された有害性緩和データセットの作成に至りました。このデータセットは、LLaVA事前学習データセットから7,531の有害な画像-テキストペアを除去しています。堅牢な有害性検出パイプラインを実装するためのガイドラインを提供します。我々の研究結果は、ヘイトスピーチ、露骨な画像、特定の個人に対する嫌がらせなどの有害なコンテンツを積極的に識別し、フィルタリングすることの必要性を強調しています。これにより、より責任ある公平なマルチモーダルシステムを構築することが可能になります。有害性緩和データセットはオープンソースであり、さらなる研究に利用可能です。
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.Summary
AI-Generated Summary