ChatPaper.aiChatPaper

LEGION : Apprentissage pour l'ancrage et l'explication dans la détection d'images synthétiques

LEGION: Learning to Ground and Explain for Synthetic Image Detection

March 19, 2025
Auteurs: Hengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
cs.AI

Résumé

Les avancées rapides des technologies génératives se révèlent être une arme à double tranchant. Bien qu'elles offrent des outils puissants qui améliorent la commodité, elles soulèvent également des préoccupations sociales importantes. En tant que défenseurs, les méthodes actuelles de détection d'images synthétiques manquent souvent d'interprétabilité textuelle au niveau des artefacts et se concentrent excessivement sur la détection de manipulations d'images, tandis que les jeux de données actuels souffrent généralement de générateurs obsolètes et d'un manque d'annotations fines. Dans cet article, nous présentons SynthScars, un jeu de données de haute qualité et diversifié composé de 12 236 images entièrement synthétiques annotées par des experts humains. Il comprend 4 types de contenus d'images distincts, 3 catégories d'artefacts et des annotations fines couvrant la segmentation au niveau des pixels, des explications textuelles détaillées et des étiquettes de catégories d'artefacts. De plus, nous proposons LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un cadre d'analyse de falsification d'images basé sur un modèle de langage multimodal (MLLM) qui intègre la détection, la segmentation et l'explication des artefacts. En nous appuyant sur cette capacité, nous explorons également LEGION en tant que contrôleur, l'intégrant dans des pipelines de raffinement d'images pour guider la génération d'images de meilleure qualité et plus réalistes. Des expériences approfondies montrent que LEGION surpasse les méthodes existantes sur plusieurs benchmarks, dépassant notamment le deuxième meilleur expert traditionnel sur SynthScars de 3,31 % en mIoU et de 7,75 % en score F1. De plus, les images raffinées générées sous sa direction présentent un alignement plus fort avec les préférences humaines. Le code, le modèle et le jeu de données seront publiés.
English
The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.

Summary

AI-Generated Summary

PDF212March 20, 2025