가짜를 찾아라: 아티팩트 설명을 통한 대규모 멀티모달 모델 기반 합성 이미지 탐지
Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation
March 19, 2025
저자: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
cs.AI
초록
인공지능 생성 콘텐츠(AIGC) 기술의 급속한 발전으로 합성 이미지가 일상생활에서 점점 더 널리 사용되면서, 진위 판단 및 탐지에 새로운 도전 과제가 제기되고 있습니다. 기존의 이미지 진위 평가 및 위조 위치 탐지 방법들은 효과적이지만, 종종 인간이 이해하기 어렵고 합성 데이터의 점점 더 복잡해지는 문제를 완전히 해결하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 일반적인 합성 이미지 및 딥페이크 탐지 작업을 위해 특화된 대규모 멀티모달 모델인 FakeVLM을 소개합니다. FakeVLM은 진짜와 가짜 이미지를 구별하는 데 뛰어난 성능을 보일 뿐만 아니라, 이미지 아티팩트에 대한 명확하고 자연스러운 언어 설명을 제공하여 해석 가능성을 향상시킵니다. 또한, 우리는 7개 카테고리에 걸쳐 10만 장 이상의 이미지를 포함하고 자연어로 세밀한 아티팩트 단서가 주석 처리된 포괄적인 데이터셋인 FakeClue를 제시합니다. FakeVLM은 추가 분류기가 필요 없이도 전문가 모델에 필적하는 성능을 보여주며, 합성 데이터 탐지를 위한 강력한 솔루션으로 자리 잡았습니다. 여러 데이터셋에 걸친 광범위한 평가를 통해 FakeVLM은 진위 분류 및 아티팩트 설명 작업 모두에서 우수성을 입증하며, 합성 이미지 탐지의 새로운 벤치마크를 설정했습니다. 데이터셋과 코드는 https://github.com/opendatalab/FakeVLM에서 공개될 예정입니다.
English
With the rapid advancement of Artificial Intelligence Generated Content
(AIGC) technologies, synthetic images have become increasingly prevalent in
everyday life, posing new challenges for authenticity assessment and detection.
Despite the effectiveness of existing methods in evaluating image authenticity
and locating forgeries, these approaches often lack human interpretability and
do not fully address the growing complexity of synthetic data. To tackle these
challenges, we introduce FakeVLM, a specialized large multimodal model designed
for both general synthetic image and DeepFake detection tasks. FakeVLM not only
excels in distinguishing real from fake images but also provides clear, natural
language explanations for image artifacts, enhancing interpretability.
Additionally, we present FakeClue, a comprehensive dataset containing over
100,000 images across seven categories, annotated with fine-grained artifact
clues in natural language. FakeVLM demonstrates performance comparable to
expert models while eliminating the need for additional classifiers, making it
a robust solution for synthetic data detection. Extensive evaluations across
multiple datasets confirm the superiority of FakeVLM in both authenticity
classification and artifact explanation tasks, setting a new benchmark for
synthetic image detection. The dataset and code will be released in:
https://github.com/opendatalab/FakeVLM.Summary
AI-Generated Summary