ChatPaper.aiChatPaper

Понимание и снижение токсичности в наборах данных для предварительного обучения на изображениях и текстах: пример исследования на LLaVA

Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9, 2025
Авторы: Karthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam
cs.AI

Аннотация

Предобучающие наборы данных являются основой для разработки мультимодальных моделей, однако они часто содержат присущие им предубеждения и токсичный контент из веб-масштабных корпусов, из которых они берутся. В данной статье мы исследуем распространенность токсичности в предобучающем наборе данных LLaVA, состоящем из изображений и текста, изучая, как вредоносный контент проявляется в различных модальностях. Мы представляем всесторонний анализ распространенных категорий токсичности и предлагаем целевые стратегии для ее смягчения, что приводит к созданию улучшенного набора данных с уменьшенной токсичностью. Этот набор данных удаляет 7 531 токсичную пару изображение-текст из предобучающего набора данных LLaVA. Мы предлагаем рекомендации по реализации надежных конвейеров для обнаружения токсичности. Наши результаты подчеркивают необходимость активного выявления и фильтрации токсичного контента, такого как разжигание ненависти, откровенные изображения и целенаправленные оскорбления, для создания более ответственных и справедливых мультимодальных систем. Набор данных с уменьшенной токсичностью является открытым и доступен для дальнейших исследований.
English
Pretraining datasets are foundational to the development of multimodal models, yet they often have inherent biases and toxic content from the web-scale corpora they are sourced from. In this paper, we investigate the prevalence of toxicity in LLaVA image-text pretraining dataset, examining how harmful content manifests in different modalities. We present a comprehensive analysis of common toxicity categories and propose targeted mitigation strategies, resulting in the creation of a refined toxicity-mitigated dataset. This dataset removes 7,531 of toxic image-text pairs in the LLaVA pre-training dataset. We offer guidelines for implementing robust toxicity detection pipelines. Our findings underscore the need to actively identify and filter toxic content - such as hate speech, explicit imagery, and targeted harassment - to build more responsible and equitable multimodal systems. The toxicity-mitigated dataset is open source and is available for further research.

Summary

AI-Generated Summary

PDF12May 15, 2025