LEGION: 합성 이미지 탐지를 위한 학습 기반 근거 및 설명 제공
LEGION: Learning to Ground and Explain for Synthetic Image Detection
March 19, 2025
저자: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
cs.AI
초록
생성 기술의 급속한 발전은 양날의 검으로 등장했습니다. 편의성을 향상시키는 강력한 도구를 제공하는 동시에, 상당한 사회적 우려를 야기하고 있습니다. 현재의 합성 이미지 탐지 방법들은 방어자로서 아티팩트 수준의 텍스트 해석 가능성이 부족하고, 이미지 조작 탐지에 지나치게 초점을 맞추고 있으며, 현재의 데이터셋은 일반적으로 구식 생성기와 세분화된 주석의 부재로 고통받고 있습니다. 본 논문에서는 인간 전문가의 주석이 포함된 12,236개의 완전 합성 이미지로 구성된 고품질 및 다양한 데이터셋인 SynthScars를 소개합니다. 이 데이터셋은 4가지의 구별되는 이미지 콘텐츠 유형, 3가지 범주의 아티팩트, 그리고 픽셀 수준의 세분화, 상세한 텍스트 설명, 아티팩트 범주 레이블을 포함하는 세분화된 주석을 특징으로 합니다. 더 나아가, 아티팩트 탐지, 세분화, 설명을 통합한 멀티모달 대형 언어 모델(MLLM) 기반 이미지 위조 분석 프레임워크인 LEGION(LEarning to Ground and explain for Synthetic Image detectiON)을 제안합니다. 이 능력을 바탕으로, LEGION을 컨트롤러로 탐구하여 이미지 정제 파이프라인에 통합하여 더 높은 품질과 더 현실적인 이미지 생성을 안내합니다. 광범위한 실험을 통해 LEGION이 여러 벤치마크에서 기존 방법들을 능가하며, 특히 SynthScars에서 두 번째로 우수한 전통적 전문가를 mIoU에서 3.31%, F1 점수에서 7.75% 앞서는 것으로 나타났습니다. 또한, 그 지도 하에 생성된 정제된 이미지는 인간의 선호도와 더 강한 일치를 보입니다. 코드, 모델, 데이터셋은 공개될 예정입니다.
English
The rapid advancements in generative technology have emerged as a
double-edged sword. While offering powerful tools that enhance convenience,
they also pose significant social concerns. As defenders, current synthetic
image detection methods often lack artifact-level textual interpretability and
are overly focused on image manipulation detection, and current datasets
usually suffer from outdated generators and a lack of fine-grained annotations.
In this paper, we introduce SynthScars, a high-quality and diverse dataset
consisting of 12,236 fully synthetic images with human-expert annotations. It
features 4 distinct image content types, 3 categories of artifacts, and
fine-grained annotations covering pixel-level segmentation, detailed textual
explanations, and artifact category labels. Furthermore, we propose LEGION
(LEarning to Ground and explain for Synthetic Image detectiON), a multimodal
large language model (MLLM)-based image forgery analysis framework that
integrates artifact detection, segmentation, and explanation. Building upon
this capability, we further explore LEGION as a controller, integrating it into
image refinement pipelines to guide the generation of higher-quality and more
realistic images. Extensive experiments show that LEGION outperforms existing
methods across multiple benchmarks, particularly surpassing the second-best
traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score.
Moreover, the refined images generated under its guidance exhibit stronger
alignment with human preferences. The code, model, and dataset will be
released.Summary
AI-Generated Summary