D^3QE: Aprendizado de Erro de Quantização com Consciência de Discrepância em Distribuição Discreta para Detecção de Imagens Geradas por Modelos Autoregressivos

Resumo

O surgimento de modelos autoregressivos (AR) visuais revolucionou a geração de imagens, ao mesmo tempo em que apresentou novos desafios para a detecção de imagens sintéticas. Diferentemente de métodos anteriores baseados em GANs ou difusão, os modelos AR geram imagens por meio da previsão de tokens discretos, exibindo tanto melhorias significativas na qualidade da síntese de imagens quanto características únicas em suas representações vetorizadas. Neste artigo, propomos utilizar o Erro de Quantização com Consciência de Discrepância de Distribuição Discreta (D^3QE) para a detecção de imagens geradas por modelos autoregressivos, explorando os padrões distintos e o viés na distribuição de frequência do codebook presente em imagens reais e falsas. Introduzimos um transformer com consciência de discrepância de distribuição discreta que integra estatísticas dinâmicas de frequência do codebook em seu mecanismo de atenção, fundindo características semânticas e o erro de quantização latente. Para avaliar nosso método, construímos um conjunto de dados abrangente denominado ARForensics, que abrange 7 modelos AR visuais principais. Os experimentos demonstram uma precisão superior de detecção e uma forte generalização do D^3QE em diferentes modelos AR, com robustez a perturbações do mundo real. O código está disponível em https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.

English

The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.

D^3QE: Aprendizado de Erro de Quantização com Consciência de Discrepância em Distribuição Discreta para Detecção de Imagens Geradas por Modelos Autoregressivos

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

Resumo

Support