Verso la Comprensione della Generazione di Video Non Sicuri
Towards Understanding Unsafe Video Generation
July 17, 2024
Autori: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI
Abstract
I modelli di generazione video (VGMs) hanno dimostrato la capacità di sintetizzare output di alta qualità. È importante comprenderne il potenziale di produrre contenuti non sicuri, come video violenti o terrificanti. In questo lavoro, forniamo una comprensione completa della generazione di video non sicuri.
Innanzitutto, per confermare la possibilità che questi modelli possano effettivamente generare video non sicuri, abbiamo selezionato prompt di generazione di contenuti non sicuri raccolti da 4chan e Lexica, e tre VGMs open-source all'avanguardia per generare video non sicuri. Dopo aver filtrato i duplicati e i contenuti generati in modo scadente, abbiamo creato un set iniziale di 2112 video non sicuri da un pool originale di 5607 video. Attraverso l'analisi di clustering e la codifica tematica di questi video generati, abbiamo identificato 5 categorie di video non sicuri: Distorti/Strani, Terrificanti, Pornografici, Violenti/Sanguinosi e Politici. Con l'approvazione dell'IRB, abbiamo poi reclutato partecipanti online per aiutarci a etichettare i video generati. Sulla base delle annotazioni inviate da 403 partecipanti, abbiamo identificato 937 video non sicuri dal set iniziale. Con le informazioni etichettate e i prompt corrispondenti, abbiamo creato il primo dataset di video non sicuri generati da VGMs.
Abbiamo poi studiato possibili meccanismi di difesa per prevenire la generazione di video non sicuri. I metodi di difesa esistenti nella generazione di immagini si concentrano sul filtraggio del prompt di input o dei risultati di output. Proponiamo un nuovo approccio chiamato Latent Variable Defense (LVD), che opera all'interno del processo di campionamento interno del modello. LVD può raggiungere un'accuratezza di difesa dello 0,90 riducendo al contempo tempo e risorse computazionali di 10 volte durante il campionamento di un gran numero di prompt non sicuri.
English
Video generation models (VGMs) have demonstrated the capability to synthesize
high-quality output. It is important to understand their potential to produce
unsafe content, such as violent or terrifying videos. In this work, we provide
a comprehensive understanding of unsafe video generation.
First, to confirm the possibility that these models could indeed generate
unsafe videos, we choose unsafe content generation prompts collected from 4chan
and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After
filtering out duplicates and poorly generated content, we created an initial
set of 2112 unsafe videos from an original pool of 5607 videos. Through
clustering and thematic coding analysis of these generated videos, we identify
5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic,
Violent/Bloody, and Political. With IRB approval, we then recruit online
participants to help label the generated videos. Based on the annotations
submitted by 403 participants, we identified 937 unsafe videos from the initial
video set. With the labeled information and the corresponding prompts, we
created the first dataset of unsafe videos generated by VGMs.
We then study possible defense mechanisms to prevent the generation of unsafe
videos. Existing defense methods in image generation focus on filtering either
input prompt or output results. We propose a new approach called Latent
Variable Defense (LVD), which works within the model's internal sampling
process. LVD can achieve 0.90 defense accuracy while reducing time and
computing resources by 10x when sampling a large number of unsafe prompts.