Detecta lo falso: Detección de imágenes sintéticas basada en modelos multimodales grandes con explicación de artefactos
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
March 19, 2025
Autores: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
cs.AI
Resumen
Con el rápido avance de las tecnologías de Contenido Generado por Inteligencia Artificial (AIGC), las imágenes sintéticas se han vuelto cada vez más frecuentes en la vida cotidiana, planteando nuevos desafíos para la evaluación y detección de autenticidad. A pesar de la eficacia de los métodos existentes para evaluar la autenticidad de las imágenes y localizar falsificaciones, estos enfoques a menudo carecen de interpretabilidad humana y no abordan completamente la creciente complejidad de los datos sintéticos. Para enfrentar estos desafíos, presentamos FakeVLM, un modelo multimodal grande especializado diseñado tanto para la detección general de imágenes sintéticas como para tareas de DeepFake. FakeVLM no solo destaca en distinguir imágenes reales de falsas, sino que también proporciona explicaciones claras en lenguaje natural sobre los artefactos de las imágenes, mejorando la interpretabilidad. Además, presentamos FakeClue, un conjunto de datos integral que contiene más de 100,000 imágenes en siete categorías, anotadas con pistas detalladas de artefactos en lenguaje natural. FakeVLM demuestra un rendimiento comparable a los modelos expertos mientras elimina la necesidad de clasificadores adicionales, convirtiéndolo en una solución robusta para la detección de datos sintéticos. Evaluaciones exhaustivas en múltiples conjuntos de datos confirman la superioridad de FakeVLM tanto en tareas de clasificación de autenticidad como en la explicación de artefactos, estableciendo un nuevo estándar en la detección de imágenes sintéticas. El conjunto de datos y el código serán publicados en: https://github.com/opendatalab/FakeVLM.
English
With the rapid advancement of Artificial Intelligence Generated Content
(AIGC) technologies, synthetic images have become increasingly prevalent in
everyday life, posing new challenges for authenticity assessment and detection.
Despite the effectiveness of existing methods in evaluating image authenticity
and locating forgeries, these approaches often lack human interpretability and
do not fully address the growing complexity of synthetic data. To tackle these
challenges, we introduce FakeVLM, a specialized large multimodal model designed
for both general synthetic image and DeepFake detection tasks. FakeVLM not only
excels in distinguishing real from fake images but also provides clear, natural
language explanations for image artifacts, enhancing interpretability.
Additionally, we present FakeClue, a comprehensive dataset containing over
100,000 images across seven categories, annotated with fine-grained artifact
clues in natural language. FakeVLM demonstrates performance comparable to
expert models while eliminating the need for additional classifiers, making it
a robust solution for synthetic data detection. Extensive evaluations across
multiple datasets confirm the superiority of FakeVLM in both authenticity
classification and artifact explanation tasks, setting a new benchmark for
synthetic image detection. The dataset and code will be released in:
https://github.com/opendatalab/FakeVLM.Summary
AI-Generated Summary