ChatPaper.aiChatPaper

Vers une compréhension de la génération de vidéos non sécurisées

Towards Understanding Unsafe Video Generation

July 17, 2024
Auteurs: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI

Résumé

Les modèles de génération vidéo (VGMs) ont démontré leur capacité à synthétiser des résultats de haute qualité. Il est important de comprendre leur potentiel à produire du contenu dangereux, comme des vidéos violentes ou effrayantes. Dans ce travail, nous offrons une compréhension approfondie de la génération de vidéos dangereuses. Tout d'abord, pour confirmer la possibilité que ces modèles puissent effectivement générer des vidéos dangereuses, nous choisissons des prompts de génération de contenu dangereux collectés sur 4chan et Lexica, ainsi que trois VGMs open-source de pointe pour générer des vidéos dangereuses. Après avoir filtré les doublons et le contenu mal généré, nous avons créé un ensemble initial de 2112 vidéos dangereuses à partir d'un pool original de 5607 vidéos. Grâce à une analyse de clustering et de codage thématique de ces vidéos générées, nous identifions 5 catégories de vidéos dangereuses : Distordues/Bizarres, Effrayantes, Pornographiques, Violentes/Sanglantes et Politiques. Avec l'approbation de l'IRB, nous avons ensuite recruté des participants en ligne pour aider à étiqueter les vidéos générées. Sur la base des annotations soumises par 403 participants, nous avons identifié 937 vidéos dangereuses dans l'ensemble initial. Avec les informations étiquetées et les prompts correspondants, nous avons créé le premier ensemble de données de vidéos dangereuses générées par des VGMs. Nous étudions ensuite les mécanismes de défense possibles pour empêcher la génération de vidéos dangereuses. Les méthodes de défense existantes dans la génération d'images se concentrent sur le filtrage des prompts d'entrée ou des résultats de sortie. Nous proposons une nouvelle approche appelée Défense par Variable Latente (LVD), qui fonctionne au sein du processus d'échantillonnage interne du modèle. LVD peut atteindre une précision de défense de 0,90 tout en réduisant le temps et les ressources de calcul par un facteur de 10 lors de l'échantillonnage d'un grand nombre de prompts dangereux.
English
Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.

Summary

AI-Generated Summary

PDF02November 28, 2024