Test de Turing de Compteur Visuel (VCT^2) : Découverte des Défis pour la Détection d'Images Générées par l'IA et Introduction de l'Indice d'IA Visuelle (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)
November 24, 2024
Auteurs: Nasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI
Résumé
La prolifération des techniques d'IA pour la génération d'images, associée à leur accessibilité croissante, a soulevé des préoccupations importantes quant au potentiel de détournement de ces images pour propager des informations erronées. Les récents méthodes de détection d'images générées par IA (AGID) incluent CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake et Deep Fake Detection. Cependant, nous soutenons que les techniques AGID de pointe actuelles sont insuffisantes pour détecter efficacement les images générées par IA contemporaines et préconisons une réévaluation complète de ces méthodes. Nous introduisons le Test de Turing Visuel Contre (VCT^2), un ensemble de référence comprenant environ 130 000 images générées par des modèles texte-image contemporains (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 et Midjourney 6). VCT^2 comprend deux ensembles de stimuli provenant de tweets du compte Twitter du New York Times et de légendes du jeu de données MS COCO. Nous évaluons également les performances des techniques AGID mentionnées ci-dessus sur le référentiel VCT^2, mettant en évidence leur inefficacité dans la détection d'images générées par IA. Alors que les modèles d'IA génératifs d'images continuent d'évoluer, la nécessité d'un cadre quantifiable pour évaluer ces modèles devient de plus en plus critique. Pour répondre à ce besoin, nous proposons l'Indice d'IA Visuelle (V_AI), qui évalue les images générées sous divers angles visuels, y compris la complexité de la texture et la cohérence des objets, établissant ainsi une nouvelle norme pour l'évaluation des modèles d'IA génératifs d'images. Pour encourager la recherche dans ce domaine, nous mettons nos ensembles de données COCO_AI et twitter_AI, disponibles publiquement sur https://huggingface.co/datasets/anonymous1233/COCO_AI et https://huggingface.co/datasets/anonymous1233/twitter_AI.
English
The proliferation of AI techniques for image generation, coupled with their
increasing accessibility, has raised significant concerns about the potential
misuse of these images to spread misinformation. Recent AI-generated image
detection (AGID) methods include CNNDetection, NPR, DM Image Detection, Fake
Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE,
OCC-CLIP, De-Fake, and Deep Fake Detection. However, we argue that the current
state-of-the-art AGID techniques are inadequate for effectively detecting
contemporary AI-generated images and advocate for a comprehensive reevaluation
of these methods. We introduce the Visual Counter Turing Test (VCT^2), a
benchmark comprising ~130K images generated by contemporary text-to-image
models (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E
3, and Midjourney 6). VCT^2 includes two sets of prompts sourced from tweets by
the New York Times Twitter account and captions from the MS COCO dataset. We
also evaluate the performance of the aforementioned AGID techniques on the
VCT^2 benchmark, highlighting their ineffectiveness in detecting AI-generated
images. As image-generative AI models continue to evolve, the need for a
quantifiable framework to evaluate these models becomes increasingly critical.
To meet this need, we propose the Visual AI Index (V_AI), which assesses
generated images from various visual perspectives, including texture complexity
and object coherence, setting a new standard for evaluating image-generative AI
models. To foster research in this domain, we make our
https://huggingface.co/datasets/anonymous1233/COCO_AI and
https://huggingface.co/datasets/anonymous1233/twitter_AI datasets publicly
available.Summary
AI-Generated Summary