Teste de Turing de Contador Visual (VCT^2): Descobrindo os Desafios para a Detecção de Imagens Geradas por IA e Introduzindo o Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)
November 24, 2024
Autores: Nasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI
Resumo
A proliferação de técnicas de IA para geração de imagens, juntamente com sua crescente acessibilidade, levantou preocupações significativas sobre o potencial uso indevido dessas imagens para espalhar desinformação. Métodos recentes de detecção de imagens geradas por IA (AGID) incluem CNNDetection, NPR, Detecção de Imagens DM, Detecção de Imagens Falsas, DIRE, LASTED, Detecção de Imagens GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake e Detecção de Deep Fake. No entanto, argumentamos que as técnicas AGID de ponta atuais são inadequadas para detectar efetivamente imagens geradas por IA contemporâneas e defendemos uma reavaliação abrangente desses métodos. Apresentamos o Teste de Turing Visual de Contador (VCT^2), um benchmark composto por ~130K imagens geradas por modelos contemporâneos de texto para imagem (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 e Midjourney 6). O VCT^2 inclui dois conjuntos de estímulos obtidos de tweets da conta do Twitter do New York Times e legendas do conjunto de dados MS COCO. Também avaliamos o desempenho das técnicas AGID mencionadas no benchmark VCT^2, destacando sua ineficácia na detecção de imagens geradas por IA. À medida que os modelos de IA geradores de imagens continuam a evoluir, a necessidade de um framework quantificável para avaliar esses modelos se torna cada vez mais crítica. Para atender a essa necessidade, propomos o Índice de IA Visual (V_AI), que avalia imagens geradas a partir de várias perspectivas visuais, incluindo complexidade de textura e coerência de objetos, estabelecendo um novo padrão para avaliar modelos de IA geradores de imagens. Para promover a pesquisa nesse domínio, disponibilizamos publicamente nossos conjuntos de dados https://huggingface.co/datasets/anonymous1233/COCO_AI e https://huggingface.co/datasets/anonymous1233/twitter_AI.
English
The proliferation of AI techniques for image generation, coupled with their
increasing accessibility, has raised significant concerns about the potential
misuse of these images to spread misinformation. Recent AI-generated image
detection (AGID) methods include CNNDetection, NPR, DM Image Detection, Fake
Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE,
OCC-CLIP, De-Fake, and Deep Fake Detection. However, we argue that the current
state-of-the-art AGID techniques are inadequate for effectively detecting
contemporary AI-generated images and advocate for a comprehensive reevaluation
of these methods. We introduce the Visual Counter Turing Test (VCT^2), a
benchmark comprising ~130K images generated by contemporary text-to-image
models (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E
3, and Midjourney 6). VCT^2 includes two sets of prompts sourced from tweets by
the New York Times Twitter account and captions from the MS COCO dataset. We
also evaluate the performance of the aforementioned AGID techniques on the
VCT^2 benchmark, highlighting their ineffectiveness in detecting AI-generated
images. As image-generative AI models continue to evolve, the need for a
quantifiable framework to evaluate these models becomes increasingly critical.
To meet this need, we propose the Visual AI Index (V_AI), which assesses
generated images from various visual perspectives, including texture complexity
and object coherence, setting a new standard for evaluating image-generative AI
models. To foster research in this domain, we make our
https://huggingface.co/datasets/anonymous1233/COCO_AI and
https://huggingface.co/datasets/anonymous1233/twitter_AI datasets publicly
available.Summary
AI-Generated Summary