ChatPaper.aiChatPaper

К пониманию генерации небезопасных видео

Towards Understanding Unsafe Video Generation

July 17, 2024
Авторы: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI

Аннотация

Модели генерации видео (VGM) продемонстрировали способность синтезировать высококачественный контент. Важно понять их потенциал в создании небезопасного контента, такого как насильственные или пугающие видеоролики. В данной работе мы предоставляем всестороннее понимание генерации небезопасных видео. Сначала, чтобы подтвердить возможность этих моделей создавать небезопасные видео, мы выбрали наборы данных для генерации небезопасного контента, собранные с 4chan и Lexica, а также три передовые модели VGM с открытым исходным кодом. После удаления дубликатов и плохо сгенерированного контента, мы создали начальный набор из 2112 небезопасных видеороликов из оригинального пула из 5607 видео. Проведя кластерный и тематический анализ кодирования этих созданных видеороликов, мы выявили 5 категорий небезопасных видео: Искаженные/Странные, Пугающие, Порнографические, Насильственные/Кровавые и Политические. С согласия комитета по этике, мы затем привлекли онлайн-участников для пометки созданных видео. Основываясь на аннотациях, предоставленных 403 участниками, мы выявили 937 небезопасных видеороликов из начального набора. Используя помеченную информацию и соответствующие запросы, мы создали первый набор данных небезопасных видеороликов, созданных с помощью VGM. Затем мы изучаем возможные механизмы защиты для предотвращения создания небезопасных видеороликов. Существующие методы защиты в генерации изображений фокусируются на фильтрации либо входного запроса, либо результатов вывода. Мы предлагаем новый подход, называемый Защита Латентных Переменных (LVD), который работает внутри процесса внутренней выборки модели. LVD может достичь точности защиты 0.90, снизив время и вычислительные ресурсы в 10 раз при выборке большого количества небезопасных запросов.
English
Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.

Summary

AI-Generated Summary

PDF02November 28, 2024