MiRAGeNews: Обнаружение мультимодальных реалистичных новостей, созданных искусственным интеллектом
MiRAGeNews: Multimodal Realistic AI-Generated News Detection
October 11, 2024
Авторы: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI
Аннотация
Распространение воспалительных или вводящих в заблуждение «фейковых» новостей стало все более распространенным в последние годы. Одновременно использование инструментов искусственного интеллекта для создания фотореалистичных изображений любых сцен стало проще простого. Комбинирование этих двух аспектов — фейковых новостей, созданных с помощью искусственного интеллекта — особенно мощно и опасно. Для борьбы с распространением фейковых новостей, созданных с помощью искусственного интеллекта, мы предлагаем набор данных MiRAGeNews, содержащий 12 500 высококачественных реальных и сгенерированных с помощью искусственного интеллекта пар изображение-подпись от передовых генераторов. Мы обнаружили, что наш набор данных представляет существенное испытание для людей (60% F-1) и мультимодальных LLMs последнего поколения (< 24% F-1). Используя наш набор данных, мы обучили мультимодальный детектор (MiRAGe), который улучшает показатель F-1 на 5,1% по сравнению с передовыми базовыми уровнями на парах изображение-подпись от генераторов изображений и новостных изданий вне области их применения. Мы предоставляем наш код и данные для помощи в будущих исследованиях по обнаружению контента, созданного с помощью искусственного интеллекта.
English
The proliferation of inflammatory or misleading "fake" news content has
become increasingly common in recent years. Simultaneously, it has become
easier than ever to use AI tools to generate photorealistic images depicting
any scene imaginable. Combining these two -- AI-generated fake news content --
is particularly potent and dangerous. To combat the spread of AI-generated fake
news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real
and AI-generated image-caption pairs from state-of-the-art generators. We find
that our dataset poses a significant challenge to humans (60% F-1) and
state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a
multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art
baselines on image-caption pairs from out-of-domain image generators and news
publishers. We release our code and data to aid future work on detecting
AI-generated content.Summary
AI-Generated Summary