D^3QE: Aprendizaje del Error de Cuantización Consciente de la Discrepancia en Distribuciones Discretas para la Detección de Imágenes Generadas por Modelos Autoregresivos
D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection
October 7, 2025
Autores: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI
Resumen
El surgimiento de los modelos autorregresivos (AR) visuales ha revolucionado la generación de imágenes, al mismo tiempo que presenta nuevos desafíos para la detección de imágenes sintéticas. A diferencia de los métodos anteriores basados en GAN o difusión, los modelos AR generan imágenes mediante la predicción de tokens discretos, mostrando tanto mejoras significativas en la calidad de síntesis de imágenes como características únicas en sus representaciones vectoriales cuantizadas. En este artículo, proponemos aprovechar el Error de Cuantización Consciente de la Discrepancia de Distribución Discreta (D^3QE) para la detección de imágenes generadas autorregresivamente, explotando los patrones distintivos y el sesgo en la distribución de frecuencia del codebook presente en imágenes reales y falsas. Introducimos un transformador consciente de la discrepancia de distribución discreta que integra estadísticas dinámicas de frecuencia del codebook en su mecanismo de atención, fusionando características semánticas y el error de cuantización latente. Para evaluar nuestro método, construimos un conjunto de datos exhaustivo denominado ARForensics que abarca 7 modelos AR visuales principales. Los experimentos demuestran una precisión superior en la detección y una fuerte generalización de D^3QE en diferentes modelos AR, con robustez frente a perturbaciones del mundo real. El código está disponible en https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image
generation while presenting new challenges for synthetic image detection.
Unlike previous GAN or diffusion-based methods, AR models generate images
through discrete token prediction, exhibiting both marked improvements in image
synthesis quality and unique characteristics in their vector-quantized
representations. In this paper, we propose to leverage Discrete Distribution
Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated
image detection that exploits the distinctive patterns and the frequency
distribution bias of the codebook existing in real and fake images. We
introduce a discrete distribution discrepancy-aware transformer that integrates
dynamic codebook frequency statistics into its attention mechanism, fusing
semantic features and quantization error latent. To evaluate our method, we
construct a comprehensive dataset termed ARForensics covering 7 mainstream
visual AR models. Experiments demonstrate superior detection accuracy and
strong generalization of D^3QE across different AR models, with robustness to
real-world perturbations. Code is available at
https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.