ChatPaper.aiChatPaper

Richtung Verständnis der unsicheren Videoerzeugung

Towards Understanding Unsafe Video Generation

July 17, 2024
Autoren: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI

Zusammenfassung

Video-Generationsmodelle (VGMs) haben die Fähigkeit gezeigt, hochwertige Ausgaben zu synthetisieren. Es ist wichtig, ihr Potenzial zur Erzeugung von unsicherem Inhalt, wie gewalttätigen oder erschreckenden Videos, zu verstehen. In dieser Arbeit bieten wir ein umfassendes Verständnis der unsicheren Videoerzeugung. Zunächst wählen wir unsichere Inhalts-Erzeugungsanfragen von 4chan und Lexica sowie drei Open-Source SOTA VGMs aus, um die Möglichkeit zu bestätigen, dass diese Modelle tatsächlich unsichere Videos erzeugen könnten. Nachdem Duplikate und schlecht erzeugte Inhalte herausgefiltert wurden, erstellen wir einen ersten Satz von 2112 unsicheren Videos aus einem ursprünglichen Pool von 5607 Videos. Durch Clustering und thematische Codierungsanalyse dieser erzeugten Videos identifizieren wir 5 unsichere Videokategorien: Verzerrt/Seltsam, Erschreckend, Pornografisch, Gewalttätig/Blutig und Politisch. Mit der Zustimmung des IRB rekrutieren wir dann Online-Teilnehmer, um die erzeugten Videos zu kennzeichnen. Basierend auf den Annotationen, die von 403 Teilnehmern eingereicht wurden, identifizierten wir 937 unsichere Videos aus dem ursprünglichen Videosatz. Mit den gekennzeichneten Informationen und den entsprechenden Anfragen erstellen wir den ersten Datensatz unsicherer Videos, die von VGMs erzeugt wurden. Wir untersuchen dann mögliche Abwehrmechanismen, um die Erzeugung unsicherer Videos zu verhindern. Bestehende Verteidigungsmethoden in der Bildgenerierung konzentrieren sich entweder auf die Filterung des Eingabeaufforderung oder der Ausgabenergebnisse. Wir schlagen einen neuen Ansatz namens Latente Variablendefense (LVD) vor, der im internen Samplingprozess des Modells arbeitet. LVD kann eine Verteidigungsgenauigkeit von 0,90 erreichen und gleichzeitig die Zeit und die Rechenressourcen um das 10-fache reduzieren, wenn eine große Anzahl unsicherer Anfragen gesampelt wird.
English
Video generation models (VGMs) have demonstrated the capability to synthesize high-quality output. It is important to understand their potential to produce unsafe content, such as violent or terrifying videos. In this work, we provide a comprehensive understanding of unsafe video generation. First, to confirm the possibility that these models could indeed generate unsafe videos, we choose unsafe content generation prompts collected from 4chan and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After filtering out duplicates and poorly generated content, we created an initial set of 2112 unsafe videos from an original pool of 5607 videos. Through clustering and thematic coding analysis of these generated videos, we identify 5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic, Violent/Bloody, and Political. With IRB approval, we then recruit online participants to help label the generated videos. Based on the annotations submitted by 403 participants, we identified 937 unsafe videos from the initial video set. With the labeled information and the corresponding prompts, we created the first dataset of unsafe videos generated by VGMs. We then study possible defense mechanisms to prevent the generation of unsafe videos. Existing defense methods in image generation focus on filtering either input prompt or output results. We propose a new approach called Latent Variable Defense (LVD), which works within the model's internal sampling process. LVD can achieve 0.90 defense accuracy while reducing time and computing resources by 10x when sampling a large number of unsafe prompts.

Summary

AI-Generated Summary

PDF02November 28, 2024