D^3QE: Aprendizado de Erro de Quantização com Consciência de Discrepância em Distribuição Discreta para Detecção de Imagens Geradas por Modelos Autoregressivos
D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
October 7, 2025
Autores: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Resumo
O surgimento de modelos autoregressivos (AR) visuais revolucionou a geração de imagens, ao mesmo tempo em que apresentou novos desafios para a detecção de imagens sintéticas. Diferentemente de métodos anteriores baseados em GANs ou difusão, os modelos AR geram imagens por meio da previsão de tokens discretos, exibindo tanto melhorias significativas na qualidade da síntese de imagens quanto características únicas em suas representações vetorizadas. Neste artigo, propomos utilizar o Erro de Quantização com Consciência de Discrepância de Distribuição Discreta (D^3QE) para a detecção de imagens geradas por modelos autoregressivos, explorando os padrões distintos e o viés na distribuição de frequência do codebook presente em imagens reais e falsas. Introduzimos um transformer com consciência de discrepância de distribuição discreta que integra estatísticas dinâmicas de frequência do codebook em seu mecanismo de atenção, fundindo características semânticas e o erro de quantização latente. Para avaliar nosso método, construímos um conjunto de dados abrangente denominado ARForensics, que abrange 7 modelos AR visuais principais. Os experimentos demonstram uma precisão superior de detecção e uma forte generalização do D^3QE em diferentes modelos AR, com robustez a perturbações do mundo real. O código está disponível em https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image
generation while presenting new challenges for synthetic image detection.
Unlike previous GAN or diffusion-based methods, AR models generate images
through discrete token prediction, exhibiting both marked improvements in image
synthesis quality and unique characteristics in their vector-quantized
representations. In this paper, we propose to leverage Discrete Distribution
Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated
image detection that exploits the distinctive patterns and the frequency
distribution bias of the codebook existing in real and fake images. We
introduce a discrete distribution discrepancy-aware transformer that integrates
dynamic codebook frequency statistics into its attention mechanism, fusing
semantic features and quantization error latent. To evaluate our method, we
construct a comprehensive dataset termed ARForensics covering 7 mainstream
visual AR models. Experiments demonstrate superior detection accuracy and
strong generalization of D^3QE across different AR models, with robustness to
real-world perturbations. Code is available at
https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.