Detecta lo falso: Detección de imágenes sintéticas basada en modelos multimodales grandes con explicación de artefactos

Resumen

Con el rápido avance de las tecnologías de Contenido Generado por Inteligencia Artificial (AIGC), las imágenes sintéticas se han vuelto cada vez más frecuentes en la vida cotidiana, planteando nuevos desafíos para la evaluación y detección de autenticidad. A pesar de la eficacia de los métodos existentes para evaluar la autenticidad de las imágenes y localizar falsificaciones, estos enfoques a menudo carecen de interpretabilidad humana y no abordan completamente la creciente complejidad de los datos sintéticos. Para enfrentar estos desafíos, presentamos FakeVLM, un modelo multimodal grande especializado diseñado tanto para la detección general de imágenes sintéticas como para tareas de DeepFake. FakeVLM no solo destaca en distinguir imágenes reales de falsas, sino que también proporciona explicaciones claras en lenguaje natural sobre los artefactos de las imágenes, mejorando la interpretabilidad. Además, presentamos FakeClue, un conjunto de datos integral que contiene más de 100,000 imágenes en siete categorías, anotadas con pistas detalladas de artefactos en lenguaje natural. FakeVLM demuestra un rendimiento comparable a los modelos expertos mientras elimina la necesidad de clasificadores adicionales, convirtiéndolo en una solución robusta para la detección de datos sintéticos. Evaluaciones exhaustivas en múltiples conjuntos de datos confirman la superioridad de FakeVLM tanto en tareas de clasificación de autenticidad como en la explicación de artefactos, estableciendo un nuevo estándar en la detección de imágenes sintéticas. El conjunto de datos y el código serán publicados en: https://github.com/opendatalab/FakeVLM.

English

With the rapid advancement of Artificial Intelligence Generated Content (AIGC) technologies, synthetic images have become increasingly prevalent in everyday life, posing new challenges for authenticity assessment and detection. Despite the effectiveness of existing methods in evaluating image authenticity and locating forgeries, these approaches often lack human interpretability and do not fully address the growing complexity of synthetic data. To tackle these challenges, we introduce FakeVLM, a specialized large multimodal model designed for both general synthetic image and DeepFake detection tasks. FakeVLM not only excels in distinguishing real from fake images but also provides clear, natural language explanations for image artifacts, enhancing interpretability. Additionally, we present FakeClue, a comprehensive dataset containing over 100,000 images across seven categories, annotated with fine-grained artifact clues in natural language. FakeVLM demonstrates performance comparable to expert models while eliminating the need for additional classifiers, making it a robust solution for synthetic data detection. Extensive evaluations across multiple datasets confirm the superiority of FakeVLM in both authenticity classification and artifact explanation tasks, setting a new benchmark for synthetic image detection. The dataset and code will be released in: https://github.com/opendatalab/FakeVLM.

Detecta lo falso: Detección de imágenes sintéticas basada en modelos multimodales grandes con explicación de artefactos

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

Resumen

Support