D^3QE: Lernen des diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehlers für die Erkennung autoregressiv erzeugter Bilder

papers.abstract

Das Aufkommen visueller autoregressiver (AR) Modelle hat die Bildgenerierung revolutioniert und gleichzeitig neue Herausforderungen für die Erkennung synthetischer Bilder geschaffen. Im Gegensatz zu früheren GAN- oder Diffusions-basierten Methoden generieren AR-Modelle Bilder durch diskrete Token-Vorhersage, was sowohl deutliche Verbesserungen in der Bildsynthesequalität als auch einzigartige Merkmale in ihren vektorquantisierten Darstellungen aufweist. In diesem Artikel schlagen wir vor, den diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehler (D^3QE) für die Erkennung autoregressiv generierter Bilder zu nutzen, der die charakteristischen Muster und die Häufigkeitsverteilungsverzerrung des Codebuchs in echten und gefälschten Bildern ausnutzt. Wir führen einen diskreten Verteilungsdiskrepanz-bewussten Transformer ein, der dynamische Codebuch-Häufigkeitsstatistiken in seinen Aufmerksamkeitsmechanismus integriert und semantische Merkmale mit latenten Quantisierungsfehlern verschmilzt. Um unsere Methode zu evaluieren, erstellen wir einen umfassenden Datensatz namens ARForensics, der 7 gängige visuelle AR-Modelle abdeckt. Experimente zeigen eine überlegene Erkennungsgenauigkeit und eine starke Generalisierungsfähigkeit von D^3QE über verschiedene AR-Modelle hinweg, mit Robustheit gegenüber realweltlichen Störungen. Der Code ist verfügbar unter https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.

English

The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.

D^3QE: Lernen des diskreten Verteilungsdiskrepanz-bewussten Quantisierungsfehlers für die Erkennung autoregressiv erzeugter Bilder

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

papers.abstract

Support