Detectores de Imagens Geradas por IA Dependem Excessivamente de Artefatos Globais: Evidências da Troca por Preenchimento

Resumo

A inpintagem baseada em aprendizado profundo moderno permite uma manipulação realista de imagens locais, levantando desafios críticos para uma deteção confiável. No entanto, observamos que os detetores atuais dependem principalmente de artefactos globais que surgem como efeitos secundários da inpintagem, em vez de se focarem no conteúdo sintetizado localmente. Demonstramos que este comportamento ocorre porque a reconstrução baseada em VAE induz uma mudança espectral subtil mas generalizada em toda a imagem, incluindo regiões não editadas. Para isolar este efeito, introduzimos a Operação de Troca de Inpintagem (INP-X), uma operação que restaura os píxeis originais fora da região editada, preservando todo o conteúdo sintetizado. Criámos um conjunto de dados de teste de 90K, incluindo imagens reais, inpintadas e trocadas, para avaliar este fenómeno. Sob esta intervenção, os detetores pré-treinados de última geração, incluindo comerciais, exibem uma queda drástica na precisão (por exemplo, de 91\% para 55\%), frequentemente aproximando-se do nível de acerto aleatório. Fornecemos uma análise teórica que relaciona este comportamento com a atenuação de alta frequência causada pelos estrangulamentos de informação do VAE. As nossas descobertas destacam a necessidade de uma deteção consciente do conteúdo. Com efeito, o treino no nosso conjunto de dados produz uma melhor generalização e localização do que a inpintagem padrão. O nosso conjunto de dados e código estão publicamente disponíveis em https://github.com/emirhanbilgic/INP-X.

English

Modern deep learning-based inpainting enables realistic local image manipulation, raising critical challenges for reliable detection. However, we observe that current detectors primarily rely on global artifacts that appear as inpainting side effects, rather than on locally synthesized content. We show that this behavior occurs because VAE-based reconstruction induces a subtle but pervasive spectral shift across the entire image, including unedited regions. To isolate this effect, we introduce Inpainting Exchange (INP-X), an operation that restores original pixels outside the edited region while preserving all synthesized content. We create a 90K test dataset including real, inpainted, and exchanged images to evaluate this phenomenon. Under this intervention, pretrained state-of-the-art detectors, including commercial ones, exhibit a dramatic drop in accuracy (e.g., from 91\% to 55\%), frequently approaching chance level. We provide a theoretical analysis linking this behavior to high-frequency attenuation caused by VAE information bottlenecks. Our findings highlight the need for content-aware detection. Indeed, training on our dataset yields better generalization and localization than standard inpainting. Our dataset and code are publicly available at https://github.com/emirhanbilgic/INP-X.

Detectores de Imagens Geradas por IA Dependem Excessivamente de Artefatos Globais: Evidências da Troca por Preenchimento

AI-Generated Image Detectors Overrely on Global Artifacts: Evidence from Inpainting Exchange

Resumo

Support