ChatPaper.aiChatPaper

Hacia la comprensión de la generación de videos inseguros.

Towards Understanding Unsafe Video Generation

July 17, 2024
Autores: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI

Resumen

Los modelos de generación de video (VGMs) han demostrado la capacidad de sintetizar resultados de alta calidad. Es importante comprender su potencial para producir contenido inseguro, como videos violentos o aterradores. En este trabajo, proporcionamos una comprensión completa de la generación de videos inseguros. Para confirmar la posibilidad de que estos modelos puedan generar videos inseguros, elegimos indicaciones de generación de contenido inseguro recopiladas de 4chan y Lexica, y tres VGMs de última generación de código abierto para generar videos inseguros. Después de filtrar duplicados y contenido mal generado, creamos un conjunto inicial de 2112 videos inseguros a partir de un grupo original de 5607 videos. A través de un análisis de agrupamiento y codificación temática de estos videos generados, identificamos 5 categorías de videos inseguros: Distorsionados/Raros, Aterradores, Pornográficos, Violentos/Sangrientos y Políticos. Con la aprobación del IRB, reclutamos participantes en línea para ayudar a etiquetar los videos generados. Basándonos en las anotaciones enviadas por 403 participantes, identificamos 937 videos inseguros del conjunto inicial de videos. Con la información etiquetada y las indicaciones correspondientes, creamos el primer conjunto de datos de videos inseguros generados por VGMs. Luego estudiamos posibles mecanismos de defensa para prevenir la generación de videos inseguros. Los métodos de defensa existentes en la generación de imágenes se centran en filtrar ya sea la indicación de entrada o los resultados de salida. Proponemos un nuevo enfoque llamado Defensa de Variable Latente (LVD), que funciona dentro del proceso de muestreo interno del modelo. LVD puede lograr una precisión de defensa del 0.90 mientras reduce el tiempo y los recursos informáticos en 10 veces al muestrear un gran número de indicaciones inseguras.
English
Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.

Summary

AI-Generated Summary

PDF02November 28, 2024