이미지-텍스트 사전 학습 데이터셋의 유해성 이해 및 완화: LLaVA 사례 연구
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA
May 9, 2025
저자: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI
초록
프리트레이닝 데이터셋은 멀티모달 모델 개발의 기초가 되지만, 웹 규모의 코퍼스에서 유래한 고유한 편향과 유해 콘텐츠를 포함하는 경우가 많습니다. 본 논문에서는 LLaVA 이미지-텍스트 프리트레이닝 데이터셋에서 유해 콘텐츠의 유행을 조사하고, 다양한 모달리티에서 유해 콘텐츠가 어떻게 나타나는지 살펴봅니다. 우리는 일반적인 유해 콘텐츠 카테고리에 대한 포괄적인 분석을 제시하고, 표적 완화 전략을 제안하여 정제된 유해 콘텐츠 완화 데이터셋을 생성합니다. 이 데이터셋은 LLaVA 프리트레이닝 데이터셋에서 7,531개의 유해 이미지-텍스트 쌍을 제거합니다. 또한, 강력한 유해 콘텐츠 탐지 파이프라인을 구현하기 위한 가이드라인을 제공합니다. 우리의 연구 결과는 혐오 발언, 노골적인 이미지, 표적 괴롭힘과 같은 유해 콘텐츠를 적극적으로 식별하고 필터링하여 더 책임감 있고 공정한 멀티모달 시스템을 구축할 필요성을 강조합니다. 유해 콘텐츠 완화 데이터셋은 오픈 소스로 제공되며, 추가 연구를 위해 이용 가능합니다.
English
Pretraining datasets are foundational to the development of multimodal
models, yet they often have inherent biases and toxic content from the
web-scale corpora they are sourced from. In this paper, we investigate the
prevalence of toxicity in LLaVA image-text pretraining dataset, examining how
harmful content manifests in different modalities. We present a comprehensive
analysis of common toxicity categories and propose targeted mitigation
strategies, resulting in the creation of a refined toxicity-mitigated dataset.
This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training
dataset. We offer guidelines for implementing robust toxicity detection
pipelines. Our findings underscore the need to actively identify and filter
toxic content - such as hate speech, explicit imagery, and targeted harassment
- to build more responsible and equitable multimodal systems. The
toxicity-mitigated dataset is open source and is available for further
research.Summary
AI-Generated Summary