Naar een beter begrip van onveilige videogeneratie
Towards Understanding Unsafe Video Generation
July 17, 2024
Auteurs: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI
Samenvatting
Videogeneratiemodellen (VGMs) hebben het vermogen aangetoond om hoogwaardige output te synthetiseren. Het is belangrijk om hun potentieel om onveilige inhoud te produceren, zoals gewelddadige of angstaanjagende video's, te begrijpen. In dit werk bieden we een uitgebreid inzicht in onveilige videogeneratie.
Eerst, om de mogelijkheid te bevestigen dat deze modellen inderdaad onveilige video's kunnen genereren, selecteren we prompts voor het genereren van onveilige inhoud die zijn verzameld van 4chan en Lexica, en gebruiken we drie open-source SOTA VGMs om onveilige video's te genereren. Na het filteren van duplicaten en slecht gegenereerde inhoud, hebben we een initiële set van 2112 onveilige video's gemaakt uit een oorspronkelijke pool van 5607 video's. Door clustering en thematische codeeranalyse van deze gegenereerde video's identificeren we 5 categorieën van onveilige video's: Vervormd/Raar, Angstaanjagend, Pornografisch, Gewelddadig/Bloedig en Politiek. Met goedkeuring van de IRB hebben we vervolgens online deelnemers geworven om te helpen bij het labelen van de gegenereerde video's. Op basis van de annotaties die zijn ingediend door 403 deelnemers, hebben we 937 onveilige video's geïdentificeerd uit de initiële videoset. Met de gelabelde informatie en de bijbehorende prompts hebben we de eerste dataset van onveilige video's gegenereerd door VGMs gemaakt.
Vervolgens bestuderen we mogelijke verdedigingsmechanismen om de generatie van onveilige video's te voorkomen. Bestaande verdedigingsmethoden in beeldgeneratie richten zich op het filteren van de invoerprompt of de uitvoerresultaten. Wij stellen een nieuwe aanpak voor genaamd Latent Variable Defense (LVD), die werkt binnen het interne samplingproces van het model. LVD kan een verdedigingsnauwkeurigheid van 0,90 bereiken terwijl de tijd en rekenbronnen met 10x worden verminderd bij het bemonsteren van een groot aantal onveilige prompts.
English
Video generation models (VGMs) have demonstrated the capability to synthesize
high-quality output. It is important to understand their potential to produce
unsafe content, such as violent or terrifying videos. In this work, we provide
a comprehensive understanding of unsafe video generation.
First, to confirm the possibility that these models could indeed generate
unsafe videos, we choose unsafe content generation prompts collected from 4chan
and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After
filtering out duplicates and poorly generated content, we created an initial
set of 2112 unsafe videos from an original pool of 5607 videos. Through
clustering and thematic coding analysis of these generated videos, we identify
5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic,
Violent/Bloody, and Political. With IRB approval, we then recruit online
participants to help label the generated videos. Based on the annotations
submitted by 403 participants, we identified 937 unsafe videos from the initial
video set. With the labeled information and the corresponding prompts, we
created the first dataset of unsafe videos generated by VGMs.
We then study possible defense mechanisms to prevent the generation of unsafe
videos. Existing defense methods in image generation focus on filtering either
input prompt or output results. We propose a new approach called Latent
Variable Defense (LVD), which works within the model's internal sampling
process. LVD can achieve 0.90 defense accuracy while reducing time and
computing resources by 10x when sampling a large number of unsafe prompts.