Rumo à Compreensão da Geração de Vídeos Inseguros
Towards Understanding Unsafe Video Generation
July 17, 2024
Autores: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI
Resumo
Os modelos de geração de vídeo (VGMs) demonstraram a capacidade de sintetizar saídas de alta qualidade. É importante compreender o potencial deles para produzir conteúdo inseguro, como vídeos violentos ou aterrorizantes. Neste trabalho, fornecemos uma compreensão abrangente da geração de vídeo inseguro.
Para confirmar a possibilidade de que esses modelos possam de fato gerar vídeos inseguros, escolhemos prompts de geração de conteúdo inseguro coletados do 4chan e do Lexica, e três VGMs SOTA de código aberto para gerar vídeos inseguros. Após filtrar duplicatas e conteúdo mal gerado, criamos um conjunto inicial de 2112 vídeos inseguros a partir de um pool original de 5607 vídeos. Através de análise de clusterização e codificação temática desses vídeos gerados, identificamos 5 categorias de vídeos inseguros: Distorcido/Estranho, Aterrorizante, Pornográfico, Violento/Sangrento e Político. Com a aprovação do IRB, recrutamos participantes online para ajudar a rotular os vídeos gerados. Com base nas anotações enviadas por 403 participantes, identificamos 937 vídeos inseguros do conjunto inicial de vídeos. Com as informações rotuladas e os prompts correspondentes, criamos o primeiro conjunto de dados de vídeos inseguros gerados por VGMs.
Estudamos então possíveis mecanismos de defesa para evitar a geração de vídeos inseguros. Os métodos de defesa existentes na geração de imagens focam em filtrar o prompt de entrada ou os resultados de saída. Propomos uma nova abordagem chamada Defesa de Variável Latente (LVD), que atua no processo de amostragem interna do modelo. O LVD pode alcançar uma precisão de defesa de 0,90, reduzindo o tempo e os recursos computacionais em 10x ao amostrar um grande número de prompts inseguros.
English
Video generation models (VGMs) have demonstrated the capability to synthesize
high-quality output. It is important to understand their potential to produce
unsafe content, such as violent or terrifying videos. In this work, we provide
a comprehensive understanding of unsafe video generation.
First, to confirm the possibility that these models could indeed generate
unsafe videos, we choose unsafe content generation prompts collected from 4chan
and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After
filtering out duplicates and poorly generated content, we created an initial
set of 2112 unsafe videos from an original pool of 5607 videos. Through
clustering and thematic coding analysis of these generated videos, we identify
5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic,
Violent/Bloody, and Political. With IRB approval, we then recruit online
participants to help label the generated videos. Based on the annotations
submitted by 403 participants, we identified 937 unsafe videos from the initial
video set. With the labeled information and the corresponding prompts, we
created the first dataset of unsafe videos generated by VGMs.
We then study possible defense mechanisms to prevent the generation of unsafe
videos. Existing defense methods in image generation focus on filtering either
input prompt or output results. We propose a new approach called Latent
Variable Defense (LVD), which works within the model's internal sampling
process. LVD can achieve 0.90 defense accuracy while reducing time and
computing resources by 10x when sampling a large number of unsafe prompts.