ChatPaper.aiChatPaper

MiRAGeNews : Détection de l'information générée par l'IA réaliste multimodale

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

October 11, 2024
Auteurs: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI

Résumé

La prolifération de contenus de "fausses" nouvelles inflammatoires ou trompeuses est devenue de plus en plus courante ces dernières années. Parallèlement, il est plus facile que jamais d'utiliser des outils d'IA pour générer des images photoréalistes représentant n'importe quelle scène imaginable. La combinaison de ces deux éléments - des contenus de fausses nouvelles générés par l'IA - est particulièrement puissante et dangereuse. Pour lutter contre la propagation de fausses nouvelles générées par l'IA, nous proposons le jeu de données MiRAGeNews, un ensemble de données de 12 500 paires image-légende réelles et générées par l'IA de haute qualité provenant de générateurs de pointe. Nous constatons que notre ensemble de données pose un défi significatif aux humains (60% F-1) et aux LLM multi-modaux de pointe (< 24% F-1). En utilisant notre ensemble de données, nous formons un détecteur multi-modal (MiRAGe) qui améliore de +5,1% le F-1 par rapport aux références de pointe sur les paires image-légende provenant de générateurs d'images et de médias d'actualité hors domaine. Nous mettons à disposition notre code et nos données pour aider les travaux futurs sur la détection de contenus générés par l'IA.
English
The proliferation of inflammatory or misleading "fake" news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two -- AI-generated fake news content -- is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

Summary

AI-Generated Summary

PDF42November 16, 2024