LEGION : Apprentissage pour l'ancrage et l'explication dans la détection d'images synthétiques
LEGION: Learning to Ground and Explain for Synthetic Image Detection
March 19, 2025
Auteurs: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
cs.AI
Résumé
Les avancées rapides des technologies génératives se révèlent être une arme à double tranchant. Bien qu'elles offrent des outils puissants qui améliorent la commodité, elles soulèvent également des préoccupations sociales importantes. En tant que défenseurs, les méthodes actuelles de détection d'images synthétiques manquent souvent d'interprétabilité textuelle au niveau des artefacts et se concentrent excessivement sur la détection de manipulations d'images, tandis que les jeux de données actuels souffrent généralement de générateurs obsolètes et d'un manque d'annotations fines. Dans cet article, nous présentons SynthScars, un jeu de données de haute qualité et diversifié composé de 12 236 images entièrement synthétiques annotées par des experts humains. Il comprend 4 types de contenus d'images distincts, 3 catégories d'artefacts et des annotations fines couvrant la segmentation au niveau des pixels, des explications textuelles détaillées et des étiquettes de catégories d'artefacts. De plus, nous proposons LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un cadre d'analyse de falsification d'images basé sur un modèle de langage multimodal (MLLM) qui intègre la détection, la segmentation et l'explication des artefacts. En nous appuyant sur cette capacité, nous explorons également LEGION en tant que contrôleur, l'intégrant dans des pipelines de raffinement d'images pour guider la génération d'images de meilleure qualité et plus réalistes. Des expériences approfondies montrent que LEGION surpasse les méthodes existantes sur plusieurs benchmarks, dépassant notamment le deuxième meilleur expert traditionnel sur SynthScars de 3,31 % en mIoU et de 7,75 % en score F1. De plus, les images raffinées générées sous sa direction présentent un alignement plus fort avec les préférences humaines. Le code, le modèle et le jeu de données seront publiés.
English
The rapid advancements in generative technology have emerged as a
double-edged sword. While offering powerful tools that enhance convenience,
they also pose significant social concerns. As defenders, current synthetic
image detection methods often lack artifact-level textual interpretability and
are overly focused on image manipulation detection, and current datasets
usually suffer from outdated generators and a lack of fine-grained annotations.
In this paper, we introduce SynthScars, a high-quality and diverse dataset
consisting of 12,236 fully synthetic images with human-expert annotations. It
features 4 distinct image content types, 3 categories of artifacts, and
fine-grained annotations covering pixel-level segmentation, detailed textual
explanations, and artifact category labels. Furthermore, we propose LEGION
(LEarning to Ground and explain for Synthetic Image detectiON), a multimodal
large language model (MLLM)-based image forgery analysis framework that
integrates artifact detection, segmentation, and explanation. Building upon
this capability, we further explore LEGION as a controller, integrating it into
image refinement pipelines to guide the generation of higher-quality and more
realistic images. Extensive experiments show that LEGION outperforms existing
methods across multiple benchmarks, particularly surpassing the second-best
traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score.
Moreover, the refined images generated under its guidance exhibit stronger
alignment with human preferences. The code, model, and dataset will be
released.Summary
AI-Generated Summary