Prueba de Turing de Contador Visual (VCT^2): Descubriendo los Desafíos para la Detección de Imágenes Generadas por IA e Introduciendo el Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)
November 24, 2024
Autores: Nasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI
Resumen
La proliferación de técnicas de IA para la generación de imágenes, junto con su creciente accesibilidad, ha suscitado preocupaciones significativas sobre el posible uso indebido de estas imágenes para difundir desinformación. Los recientes métodos de detección de imágenes generadas por IA (AGID) incluyen CNNDetection, NPR, Detección de Imágenes DM, Detección de Imágenes Falsas, DIRE, LASTED, Detección de Imágenes GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake y Detección de Deep Fakes. Sin embargo, sostenemos que las técnicas AGID de vanguardia actuales son insuficientes para detectar eficazmente las imágenes generadas por IA contemporáneas y abogamos por una reevaluación integral de estos métodos. Presentamos el Test de Turing Visual Contrarreloj (VCT^2), un banco de pruebas que comprende ~130K imágenes generadas por modelos de texto a imagen contemporáneos (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 y Midjourney 6). VCT^2 incluye dos conjuntos de estímulos obtenidos de tweets de la cuenta de Twitter de New York Times y subtítulos del conjunto de datos MS COCO. También evaluamos el rendimiento de las técnicas AGID mencionadas anteriormente en el banco de pruebas VCT^2, resaltando su falta de efectividad en la detección de imágenes generadas por IA. A medida que los modelos de IA generativos de imágenes continúan evolucionando, la necesidad de un marco cuantificable para evaluar estos modelos se vuelve cada vez más crítica. Para satisfacer esta necesidad, proponemos el Índice de IA Visual (V_AI), que evalúa imágenes generadas desde diversas perspectivas visuales, incluida la complejidad de textura y la coherencia de objetos, estableciendo un nuevo estándar para evaluar modelos de IA generativos de imágenes. Para fomentar la investigación en este ámbito, ponemos a disposición públicamente nuestros conjuntos de datos COCO_AI y Twitter_AI en https://huggingface.co/datasets/anonymous1233/COCO_AI y https://huggingface.co/datasets/anonymous1233/twitter_AI.
English
The proliferation of AI techniques for image generation, coupled with their
increasing accessibility, has raised significant concerns about the potential
misuse of these images to spread misinformation. Recent AI-generated image
detection (AGID) methods include CNNDetection, NPR, DM Image Detection, Fake
Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE,
OCC-CLIP, De-Fake, and Deep Fake Detection. However, we argue that the current
state-of-the-art AGID techniques are inadequate for effectively detecting
contemporary AI-generated images and advocate for a comprehensive reevaluation
of these methods. We introduce the Visual Counter Turing Test (VCT^2), a
benchmark comprising ~130K images generated by contemporary text-to-image
models (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E
3, and Midjourney 6). VCT^2 includes two sets of prompts sourced from tweets by
the New York Times Twitter account and captions from the MS COCO dataset. We
also evaluate the performance of the aforementioned AGID techniques on the
VCT^2 benchmark, highlighting their ineffectiveness in detecting AI-generated
images. As image-generative AI models continue to evolve, the need for a
quantifiable framework to evaluate these models becomes increasingly critical.
To meet this need, we propose the Visual AI Index (V_AI), which assesses
generated images from various visual perspectives, including texture complexity
and object coherence, setting a new standard for evaluating image-generative AI
models. To foster research in this domain, we make our
https://huggingface.co/datasets/anonymous1233/COCO_AI and
https://huggingface.co/datasets/anonymous1233/twitter_AI datasets publicly
available.Summary
AI-Generated Summary