ChatPaper.aiChatPaper

D^3QE : Apprentissage de l'erreur de quantification sensible à la divergence des distributions discrètes pour la détection d'images générées par modèles autorégressifs

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

October 7, 2025
papers.authors: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

L'émergence des modèles autorégressifs (AR) visuels a révolutionné la génération d'images tout en présentant de nouveaux défis pour la détection d'images synthétiques. Contrairement aux méthodes précédentes basées sur les GAN ou la diffusion, les modèles AR génèrent des images par prédiction de tokens discrets, montrant à la fois des améliorations marquées dans la qualité de la synthèse d'images et des caractéristiques uniques dans leurs représentations vectorielles quantifiées. Dans cet article, nous proposons d'exploiter l'Erreur de Quantification Sensible à la Disparité des Distributions Discrètes (D^3QE) pour la détection d'images générées par des modèles autorégressifs, en tirant parti des motifs distinctifs et du biais de distribution de fréquence du codebook existant dans les images réelles et fausses. Nous introduisons un transformateur sensible à la disparité des distributions discrètes qui intègre des statistiques dynamiques de fréquence du codebook dans son mécanisme d'attention, fusionnant les caractéristiques sémantiques et l'erreur de quantification latente. Pour évaluer notre méthode, nous construisons un ensemble de données complet appelé ARForensics couvrant 7 modèles AR visuels principaux. Les expériences démontrent une précision de détection supérieure et une forte généralisation de D^3QE à travers différents modèles AR, avec une robustesse aux perturbations du monde réel. Le code est disponible à l'adresse https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
PDF12October 9, 2025