ChatPaper.aiChatPaper

D^3QE: Обучение дискретного распределения с учетом ошибки квантования для обнаружения изображений, сгенерированных авторегрессивными моделями

D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

October 7, 2025
Авторы: Yanran Zhang, Bingyao Yu, Yu Zheng, Wenzhao Zheng, Yueqi Duan, Lei Chen, Jie Zhou, Jiwen Lu
cs.AI

Аннотация

Появление визуальных авторегрессионных (AR) моделей произвело революцию в генерации изображений, одновременно представив новые вызовы для обнаружения синтетических изображений. В отличие от предыдущих методов, основанных на GAN или диффузии, AR-модели генерируют изображения через предсказание дискретных токенов, демонстрируя как значительные улучшения в качестве синтеза изображений, так и уникальные характеристики в их векторно-квантованных представлениях. В данной статье мы предлагаем использовать метод обнаружения изображений, сгенерированных авторегрессионными моделями, основанный на осведомленности о дискретных распределениях и ошибках квантования (D^3QE), который использует характерные паттерны и смещение частотного распределения кодовой книги, существующие в реальных и синтетических изображениях. Мы представляем трансформер, учитывающий различия в дискретных распределениях, который интегрирует динамическую статистику частот кодовой книги в механизм внимания, объединяя семантические признаки и скрытые ошибки квантования. Для оценки нашего метода мы создали всеобъемлющий набор данных под названием ARForensics, охватывающий 7 основных визуальных AR-моделей. Эксперименты демонстрируют превосходную точность обнаружения и сильную обобщаемость D^3QE для различных AR-моделей, а также устойчивость к реальным искажениям. Код доступен по адресу https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
English
The emergence of visual autoregressive (AR) models has revolutionized image generation while presenting new challenges for synthetic image detection. Unlike previous GAN or diffusion-based methods, AR models generate images through discrete token prediction, exhibiting both marked improvements in image synthesis quality and unique characteristics in their vector-quantized representations. In this paper, we propose to leverage Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) for autoregressive-generated image detection that exploits the distinctive patterns and the frequency distribution bias of the codebook existing in real and fake images. We introduce a discrete distribution discrepancy-aware transformer that integrates dynamic codebook frequency statistics into its attention mechanism, fusing semantic features and quantization error latent. To evaluate our method, we construct a comprehensive dataset termed ARForensics covering 7 mainstream visual AR models. Experiments demonstrate superior detection accuracy and strong generalization of D^3QE across different AR models, with robustness to real-world perturbations. Code is available at https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
PDF12October 9, 2025