ChatPaper.aiChatPaper

MiRAGeNews: Detecção de Notícias Geradas por IA Multimodal Realistas

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

October 11, 2024
Autores: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI

Resumo

A proliferação de conteúdo inflamatório ou enganoso de "fake news" tornou-se cada vez mais comum nos últimos anos. Simultaneamente, tornou-se mais fácil do que nunca usar ferramentas de IA para gerar imagens fotorrealistas representando qualquer cena imaginável. Combinar esses dois elementos - conteúdo de "fake news" gerado por IA - é particularmente potente e perigoso. Para combater a disseminação de notícias falsas geradas por IA, propomos o Conjunto de Dados MiRAGeNews, um conjunto de dados com 12.500 pares de imagens e legendas de alta qualidade reais e gerados por IA a partir de geradores de última geração. Descobrimos que nosso conjunto de dados representa um desafio significativo para humanos (60% F-1) e para modelos de linguagem com múltiplos modais de última geração (< 24% F-1). Usando nosso conjunto de dados, treinamos um detector multimodal (MiRAGe) que melhora em +5,1% o F-1 em relação aos baselines de última geração em pares de imagens e legendas de geradores de imagens e publicadores de notícias fora do domínio. Disponibilizamos nosso código e dados para auxiliar trabalhos futuros na detecção de conteúdo gerado por IA.
English
The proliferation of inflammatory or misleading "fake" news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two -- AI-generated fake news content -- is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

Summary

AI-Generated Summary

PDF42November 16, 2024