LEGION: Apprendimento per il Grounding e la Spiegazione nel Rilevamento di Immagini Sintetiche
LEGION: Learning to Ground and Explain for Synthetic Image Detection
March 19, 2025
Autori: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
cs.AI
Abstract
I rapidi progressi nella tecnologia generativa si sono rivelati un'arma a doppio taglio. Se da un lato offrono strumenti potenti che migliorano la convenienza, dall'altro sollevano significative preoccupazioni sociali. Come difensori, gli attuali metodi di rilevamento delle immagini sintetiche spesso mancano di interpretabilità testuale a livello di artefatti e sono eccessivamente focalizzati sul rilevamento della manipolazione delle immagini, mentre i dataset attuali generalmente soffrono di generatori obsoleti e di una mancanza di annotazioni granulari. In questo articolo, presentiamo SynthScars, un dataset di alta qualità e diversificato composto da 12.236 immagini completamente sintetiche con annotazioni di esperti umani. Esso include 4 tipi distinti di contenuti immagine, 3 categorie di artefatti e annotazioni granulari che coprono la segmentazione a livello di pixel, spiegazioni testuali dettagliate ed etichette di categoria degli artefatti. Inoltre, proponiamo LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un framework di analisi delle falsificazioni di immagini basato su un modello linguistico multimodale di grandi dimensioni (MLLM) che integra rilevamento, segmentazione e spiegazione degli artefatti. Basandoci su questa capacità, esploriamo ulteriormente LEGION come controller, integrandolo in pipeline di raffinamento delle immagini per guidare la generazione di immagini di qualità superiore e più realistiche. Esperimenti estesi dimostrano che LEGION supera i metodi esistenti su più benchmark, superando in particolare il secondo miglior esperto tradizionale su SynthScars del 3,31% in mIoU e del 7,75% in punteggio F1. Inoltre, le immagini raffinate generate sotto la sua guida mostrano un allineamento più forte con le preferenze umane. Il codice, il modello e il dataset saranno rilasciati.
English
The rapid advancements in generative technology have emerged as a
double-edged sword. While offering powerful tools that enhance convenience,
they also pose significant social concerns. As defenders, current synthetic
image detection methods often lack artifact-level textual interpretability and
are overly focused on image manipulation detection, and current datasets
usually suffer from outdated generators and a lack of fine-grained annotations.
In this paper, we introduce SynthScars, a high-quality and diverse dataset
consisting of 12,236 fully synthetic images with human-expert annotations. It
features 4 distinct image content types, 3 categories of artifacts, and
fine-grained annotations covering pixel-level segmentation, detailed textual
explanations, and artifact category labels. Furthermore, we propose LEGION
(LEarning to Ground and explain for Synthetic Image detectiON), a multimodal
large language model (MLLM)-based image forgery analysis framework that
integrates artifact detection, segmentation, and explanation. Building upon
this capability, we further explore LEGION as a controller, integrating it into
image refinement pipelines to guide the generation of higher-quality and more
realistic images. Extensive experiments show that LEGION outperforms existing
methods across multiple benchmarks, particularly surpassing the second-best
traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score.
Moreover, the refined images generated under its guidance exhibit stronger
alignment with human preferences. The code, model, and dataset will be
released.