ChatPaper.aiChatPaper

MiRAGeNews: Detección de Noticias Generadas por IA Multimodal Realistas

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

October 11, 2024
Autores: Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch
cs.AI

Resumen

La proliferación de contenido de noticias "falsas" inflamatorias o engañosas se ha vuelto cada vez más común en los últimos años. Al mismo tiempo, ha resultado más sencillo que nunca utilizar herramientas de IA para generar imágenes fotorrealistas que representen cualquier escena imaginable. La combinación de estos dos elementos, es decir, el contenido de noticias falsas generado por IA, resulta particularmente potente y peligrosa. Para combatir la propagación de noticias falsas generadas por IA, proponemos el Conjunto de Datos MiRAGeNews, un conjunto de datos de 12,500 pares de imágenes y subtítulos de alta calidad reales y generados por IA de generadores de última generación. Observamos que nuestro conjunto de datos plantea un desafío significativo para los humanos (60% F-1) y para los LLMs multimodales de última generación (<24% F-1). Utilizando nuestro conjunto de datos, entrenamos un detector multimodal (MiRAGe) que mejora en +5.1% F-1 sobre los resultados de referencia de última generación en pares de imágenes y subtítulos de generadores de imágenes y editores de noticias fuera del dominio. Publicamos nuestro código y datos para ayudar en futuros trabajos de detección de contenido generado por IA.
English
The proliferation of inflammatory or misleading "fake" news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two -- AI-generated fake news content -- is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

Summary

AI-Generated Summary

PDF42November 16, 2024