D^3QE: Lernen des diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehlers für die Erkennung autoregressiv erzeugter Bilder
D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
October 7, 2025
papers.authors: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
Das Aufkommen visueller autoregressiver (AR) Modelle hat die Bildgenerierung revolutioniert und gleichzeitig neue Herausforderungen für die Erkennung synthetischer Bilder geschaffen. Im Gegensatz zu früheren GAN- oder Diffusions-basierten Methoden generieren AR-Modelle Bilder durch diskrete Token-Vorhersage, was sowohl deutliche Verbesserungen in der Bildsynthesequalität als auch einzigartige Merkmale in ihren vektorquantisierten Darstellungen aufweist. In diesem Artikel schlagen wir vor, den diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehler (D^3QE) für die Erkennung autoregressiv generierter Bilder zu nutzen, der die charakteristischen Muster und die Häufigkeitsverteilungsverzerrung des Codebuchs in echten und gefälschten Bildern ausnutzt. Wir führen einen diskreten Verteilungsdiskrepanz-bewussten Transformer ein, der dynamische Codebuch-Häufigkeitsstatistiken in seinen Aufmerksamkeitsmechanismus integriert und semantische Merkmale mit latenten Quantisierungsfehlern verschmilzt. Um unsere Methode zu evaluieren, erstellen wir einen umfassenden Datensatz namens ARForensics, der 7 gängige visuelle AR-Modelle abdeckt. Experimente zeigen eine überlegene Erkennungsgenauigkeit und eine starke Generalisierungsfähigkeit von D^3QE über verschiedene AR-Modelle hinweg, mit Robustheit gegenüber realweltlichen Störungen. Der Code ist verfügbar unter https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image
generation while presenting new challenges for synthetic image detection.
Unlike previous GAN or diffusion-based methods, AR models generate images
through discrete token prediction, exhibiting both marked improvements in image
synthesis quality and unique characteristics in their vector-quantized
representations. In this paper, we propose to leverage Discrete Distribution
Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated
image detection that exploits the distinctive patterns and the frequency
distribution bias of the codebook existing in real and fake images. We
introduce a discrete distribution discrepancy-aware transformer that integrates
dynamic codebook frequency statistics into its attention mechanism, fusing
semantic features and quantization error latent. To evaluate our method, we
construct a comprehensive dataset termed ARForensics covering 7 mainstream
visual AR models. Experiments demonstrate superior detection accuracy and
strong generalization of D^3QE across different AR models, with robustness to
real-world perturbations. Code is available at
https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.