LEGION: Apprendimento per il Grounding e la Spiegazione nel Rilevamento di Immagini Sintetiche

Abstract

I rapidi progressi nella tecnologia generativa si sono rivelati un'arma a doppio taglio. Se da un lato offrono strumenti potenti che migliorano la convenienza, dall'altro sollevano significative preoccupazioni sociali. Come difensori, gli attuali metodi di rilevamento delle immagini sintetiche spesso mancano di interpretabilità testuale a livello di artefatti e sono eccessivamente focalizzati sul rilevamento della manipolazione delle immagini, mentre i dataset attuali generalmente soffrono di generatori obsoleti e di una mancanza di annotazioni granulari. In questo articolo, presentiamo SynthScars, un dataset di alta qualità e diversificato composto da 12.236 immagini completamente sintetiche con annotazioni di esperti umani. Esso include 4 tipi distinti di contenuti immagine, 3 categorie di artefatti e annotazioni granulari che coprono la segmentazione a livello di pixel, spiegazioni testuali dettagliate ed etichette di categoria degli artefatti. Inoltre, proponiamo LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un framework di analisi delle falsificazioni di immagini basato su un modello linguistico multimodale di grandi dimensioni (MLLM) che integra rilevamento, segmentazione e spiegazione degli artefatti. Basandoci su questa capacità, esploriamo ulteriormente LEGION come controller, integrandolo in pipeline di raffinamento delle immagini per guidare la generazione di immagini di qualità superiore e più realistiche. Esperimenti estesi dimostrano che LEGION supera i metodi esistenti su più benchmark, superando in particolare il secondo miglior esperto tradizionale su SynthScars del 3,31% in mIoU e del 7,75% in punteggio F1. Inoltre, le immagini raffinate generate sotto la sua guida mostrano un allineamento più forte con le preferenze umane. Il codice, il modello e il dataset saranno rilasciati.

English

The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.

LEGION: Apprendimento per il Grounding e la Spiegazione nel Rilevamento di Immagini Sintetiche

LEGION: Learning to Ground and Explain for Synthetic Image Detection

Abstract

Support