Identifique o Falso: Detecção de Imagens Sintéticas Baseada em Modelos Multimodais de Grande Escala com Explicação de Artefatos
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
March 19, 2025
Autores: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
cs.AI
Resumo
Com o rápido avanço das tecnologias de Conteúdo Gerado por Inteligência Artificial (AIGC), as imagens sintéticas tornaram-se cada vez mais prevalentes no cotidiano, apresentando novos desafios para a avaliação e detecção de autenticidade. Apesar da eficácia dos métodos existentes na avaliação da autenticidade de imagens e na localização de falsificações, essas abordagens frequentemente carecem de interpretabilidade humana e não abordam completamente a crescente complexidade dos dados sintéticos. Para enfrentar esses desafios, apresentamos o FakeVLM, um modelo multimodal de grande escala especializado tanto para tarefas gerais de detecção de imagens sintéticas quanto para a detecção de DeepFakes. O FakeVLM não apenas se destaca na distinção entre imagens reais e falsas, mas também fornece explicações claras e em linguagem natural para os artefatos das imagens, aumentando a interpretabilidade. Além disso, apresentamos o FakeClue, um conjunto de dados abrangente contendo mais de 100.000 imagens em sete categorias, anotadas com pistas detalhadas de artefatos em linguagem natural. O FakeVLM demonstra desempenho comparável a modelos especializados, eliminando a necessidade de classificadores adicionais, tornando-o uma solução robusta para a detecção de dados sintéticos. Avaliações extensas em múltiplos conjuntos de dados confirmam a superioridade do FakeVLM tanto em tarefas de classificação de autenticidade quanto na explicação de artefatos, estabelecendo um novo padrão para a detecção de imagens sintéticas. O conjunto de dados e o código serão disponibilizados em: https://github.com/opendatalab/FakeVLM.
English
With the rapid advancement of Artificial Intelligence Generated Content
(AIGC) technologies, synthetic images have become increasingly prevalent in
everyday life, posing new challenges for authenticity assessment and detection.
Despite the effectiveness of existing methods in evaluating image authenticity
and locating forgeries, these approaches often lack human interpretability and
do not fully address the growing complexity of synthetic data. To tackle these
challenges, we introduce FakeVLM, a specialized large multimodal model designed
for both general synthetic image and DeepFake detection tasks. FakeVLM not only
excels in distinguishing real from fake images but also provides clear, natural
language explanations for image artifacts, enhancing interpretability.
Additionally, we present FakeClue, a comprehensive dataset containing over
100,000 images across seven categories, annotated with fine-grained artifact
clues in natural language. FakeVLM demonstrates performance comparable to
expert models while eliminating the need for additional classifiers, making it
a robust solution for synthetic data detection. Extensive evaluations across
multiple datasets confirm the superiority of FakeVLM in both authenticity
classification and artifact explanation tasks, setting a new benchmark for
synthetic image detection. The dataset and code will be released in:
https://github.com/opendatalab/FakeVLM.Summary
AI-Generated Summary