D^3QE: Het leren van Discrete Distributie Discrepantie-bewuste Kwantiseringsfout voor Detectie van Autoregressief gegenereerde afbeeldingen
D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
October 7, 2025
Auteurs: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
De opkomst van visuele autoregressieve (AR) modellen heeft een revolutie teweeggebracht in beeldgeneratie, terwijl het tegelijkertijd nieuwe uitdagingen biedt voor de detectie van synthetische beelden. In tegenstelling tot eerdere GAN- of diffusiegebaseerde methoden genereren AR-modellen beelden via discrete tokenvoorspelling, wat zowel aanzienlijke verbeteringen in de kwaliteit van beeld synthese laat zien als unieke kenmerken in hun vectorgekwantiseerde representaties. In dit artikel stellen we voor om Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) te benutten voor de detectie van autoregressief gegenereerde beelden, waarbij we gebruikmaken van de onderscheidende patronen en de frequentieverdeling bias van de codebook die aanwezig zijn in echte en nepbeelden. We introduceren een discrete distributie-discrepantiebewuste transformer die dynamische codebook frequentiestatistieken integreert in zijn aandachtmechanisme, waarbij semantische kenmerken en kwantiseringsfoutlatent worden samengevoegd. Om onze methode te evalueren, hebben we een uitgebreide dataset samengesteld genaamd ARForensics, die 7 mainstream visuele AR-modellen omvat. Experimenten tonen superieure detectienauwkeurigheid en sterke generalisatie van D^3QE aan over verschillende AR-modellen, met robuustheid tegen real-world verstoringen. De code is beschikbaar op https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image
generation while presenting new challenges for synthetic image detection.
Unlike previous GAN or diffusion-based methods, AR models generate images
through discrete token prediction, exhibiting both marked improvements in image
synthesis quality and unique characteristics in their vector-quantized
representations. In this paper, we propose to leverage Discrete Distribution
Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated
image detection that exploits the distinctive patterns and the frequency
distribution bias of the codebook existing in real and fake images. We
introduce a discrete distribution discrepancy-aware transformer that integrates
dynamic codebook frequency statistics into its attention mechanism, fusing
semantic features and quantization error latent. To evaluate our method, we
construct a comprehensive dataset termed ARForensics covering 7 mainstream
visual AR models. Experiments demonstrate superior detection accuracy and
strong generalization of D^3QE across different AR models, with robustness to
real-world perturbations. Code is available at
https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.