MiRAGeNews: マルチモーダルなリアルなAI生成ニュースの検出
MiRAGeNews: Multimodal Realistic AI-Generated News Detection
October 11, 2024
著者: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI
要旨
最近、炎上を招くまたは誤解を招く「偽」ニュースコンテンツの増加が一般的になってきました。同時に、AIツールを使用して、ありとあらゆるシーンを描写した写真のような画像を生成することがこれまで以上に簡単になっています。これら2つを組み合わせたAI生成の偽ニュースコンテンツは特に強力で危険です。AI生成の偽ニュースの拡散に対抗するため、私たちはMiRAGeNewsデータセットを提案します。これは、最先端のジェネレータからの12,500組の高品質な実画像とAI生成画像キャプションペアのデータセットです。私たちのデータセットは、人間(60%のF-1)や最先端の多モーダルLLM(24%未満のF-1)にとって重要な課題を提起することがわかりました。私たちは、我々のデータセットを使用して、ドメイン外の画像ジェネレータやニュース発行者からの画像キャプションペアにおいて、最先端のベースラインよりも+5.1%のF-1を改善する多モーダル検出器(MiRAGe)を訓練しました。AI生成コンテンツの検出に関する将来の研究を支援するために、私たちはコードとデータを公開します。
English
The proliferation of inflammatory or misleading "fake" news content has
become increasingly common in recent years. Simultaneously, it has become
easier than ever to use AI tools to generate photorealistic images depicting
any scene imaginable. Combining these two -- AI-generated fake news content --
is particularly potent and dangerous. To combat the spread of AI-generated fake
news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real
and AI-generated image-caption pairs from state-of-the-art generators. We find
that our dataset poses a significant challenge to humans (60% F-1) and
state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a
multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art
baselines on image-caption pairs from out-of-domain image generators and news
publishers. We release our code and data to aid future work on detecting
AI-generated content.Summary
AI-Generated Summary