ChatPaper.aiChatPaper

MiRAGeNews: Multimodale realistische KI-generierte Nachrichtenerkennung

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

October 11, 2024
Autoren: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI

Zusammenfassung

Die Verbreitung von inflammativen oder irreführenden "Fake News"-Inhalten ist in den letzten Jahren zunehmend üblich geworden. Gleichzeitig ist es einfacher geworden, KI-Tools zu verwenden, um fotorealistische Bilder zu generieren, die jede erdenkliche Szene darstellen. Die Kombination dieser beiden - KI-generierte Fake News-Inhalte - ist besonders wirksam und gefährlich. Um der Verbreitung von KI-generierten Fake News entgegenzuwirken, schlagen wir das MiRAGeNews-Datenset vor, ein Datenset von 12.500 hochwertigen realen und KI-generierten Bildunterschriften-Paaren von Generatoren auf dem neuesten Stand der Technik. Wir stellen fest, dass unser Datenset eine signifikante Herausforderung für Menschen (60% F-1) und Multi-Modal LLMs auf dem neuesten Stand der Technik (< 24% F-1) darstellt. Unter Verwendung unseres Datensets trainieren wir einen Multi-Modal-Detektor (MiRAGe), der die Leistung um +5,1% F-1 gegenüber dem Stand der Technik auf Bildunterschriften-Paaren von Out-of-Domain-Bildgeneratoren und Nachrichtenverlagen verbessert. Wir veröffentlichen unseren Code und unsere Daten, um zukünftige Arbeiten zur Erkennung von KI-generierten Inhalten zu unterstützen.
English
The proliferation of inflammatory or misleading "fake" news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two -- AI-generated fake news content -- is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

Summary

AI-Generated Summary

PDF42November 16, 2024