ChatPaper.aiChatPaper

D^3QE: 자기회귀 생성 이미지 탐지를 위한 이산 분포 불일치 인지 양자화 오차 학습

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

October 7, 2025
저자: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

초록

시각적 자기회귀(AR) 모델의 등장은 이미지 생성 분야에 혁신을 가져왔으며, 동시에 합성 이미지 탐지를 위한 새로운 도전 과제를 제시하고 있다. 기존의 GAN이나 확산 기반 방법과 달리, AR 모델은 이산 토큰 예측을 통해 이미지를 생성하며, 이미지 합성 품질에서 뚜렷한 개선을 보이는 동시에 벡터 양자화 표현에서 독특한 특성을 나타낸다. 본 논문에서는 실제 이미지와 가짜 이미지에 존재하는 코드북의 독특한 패턴과 주파수 분포 편향을 활용하여 AR 생성 이미지를 탐지하기 위해 이산 분포 불일치 인식 양자화 오차(D^3QE)를 제안한다. 우리는 동적 코드북 주파수 통계를 주의 메커니즘에 통합하고, 의미론적 특징과 양자화 오차 잠재를 융합하는 이산 분포 불일치 인식 트랜스포머를 소개한다. 제안 방법을 평가하기 위해, 7가지 주요 시각적 AR 모델을 포함한 ARForensics라는 포괄적인 데이터셋을 구축하였다. 실험 결과, D^3QE는 다양한 AR 모델에 걸쳐 우수한 탐지 정확도와 강력한 일반화 능력을 보였으며, 실제 세계의 섭동에 대한 견고성을 입증하였다. 코드는 https://github.com/Zhangyr2022/D3QE에서 확인할 수 있다.
English
The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
PDF12October 9, 2025