ChatPaper.aiChatPaper

D^3QE: Apprendimento dell'Errore di Quantizzazione Consapevole della Discrepanza nella Distribuzione Discreta per il Rilevamento di Immagini Generate Autoregressivamente

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

October 7, 2025
Autori: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

Abstract

L'emergenza dei modelli autoregressivi (AR) visivi ha rivoluzionato la generazione di immagini, presentando al contempo nuove sfide per il rilevamento di immagini sintetiche. A differenza dei precedenti metodi basati su GAN o diffusione, i modelli AR generano immagini attraverso la previsione di token discreti, mostrando sia significativi miglioramenti nella qualità della sintesi delle immagini sia caratteristiche uniche nelle loro rappresentazioni vettoriali quantizzate. In questo articolo, proponiamo di sfruttare l'Errore di Quantizzazione Consapevole della Discrepanza di Distribuzione Discreta (D^3QE) per il rilevamento di immagini generate autoregressivamente, sfruttando i modelli distintivi e il bias nella distribuzione di frequenza del codebook presenti nelle immagini reali e false. Introduciamo un trasformatore consapevole della discrepanza di distribuzione discreta che integra le statistiche dinamiche di frequenza del codebook nel suo meccanismo di attenzione, fondendo caratteristiche semantiche e latenti dell'errore di quantizzazione. Per valutare il nostro metodo, abbiamo costruito un dataset completo denominato ARForensics che copre 7 modelli AR visivi principali. Gli esperimenti dimostrano una precisione di rilevamento superiore e una forte generalizzazione di D^3QE attraverso diversi modelli AR, con robustezza alle perturbazioni del mondo reale. Il codice è disponibile all'indirizzo https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
PDF12December 14, 2025