MiRAGeNews: Detectie van multimodale realistische door AI gegenereerde nieuwsberichten
MiRAGeNews: Multimodal Realistic AI-Generated News Detection
October 11, 2024
Auteurs: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI
Samenvatting
De verspreiding van ontstekende of misleidende "nep" nieuwsinhoud is de afgelopen jaren steeds gebruikelijker geworden. Tegelijkertijd is het makkelijker dan ooit om AI-tools te gebruiken om fotorealistische afbeeldingen te genereren die elk denkbare scène uitbeelden. Het combineren van deze twee - door AI gegenereerde nepnieuwsinhoud - is bijzonder krachtig en gevaarlijk. Om de verspreiding van door AI gegenereerd nepnieuws tegen te gaan, stellen we het MiRAGeNews Dataset voor, een dataset van 12.500 hoogwaardige echte en door AI gegenereerde afbeelding-onderschrift paren van toonaangevende generatoren. We vinden dat onze dataset een aanzienlijke uitdaging vormt voor mensen (60% F-1) en toonaangevende multimodale LLM's (< 24% F-1). Met behulp van onze dataset trainen we een multimodale detector (MiRAGe) die met +5,1% F-1 verbetert ten opzichte van toonaangevende baselines op afbeelding-onderschrift paren van out-of-domain afbeeldingsgeneratoren en nieuwsuitgevers. We stellen onze code en gegevens beschikbaar om toekomstig werk bij het detecteren van door AI gegenereerde inhoud te ondersteunen.
English
The proliferation of inflammatory or misleading "fake" news content has
become increasingly common in recent years. Simultaneously, it has become
easier than ever to use AI tools to generate photorealistic images depicting
any scene imaginable. Combining these two -- AI-generated fake news content --
is particularly potent and dangerous. To combat the spread of AI-generated fake
news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real
and AI-generated image-caption pairs from state-of-the-art generators. We find
that our dataset poses a significant challenge to humans (60% F-1) and
state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a
multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art
baselines on image-caption pairs from out-of-domain image generators and news
publishers. We release our code and data to aid future work on detecting
AI-generated content.Summary
AI-Generated Summary