안전하지 않은 비디오 생성의 이해를 향하여
Towards Understanding Unsafe Video Generation
July 17, 2024
저자: Yan Pang, Aiping Xiong, Yang Zhang, Tianhao Wang
cs.AI
초록
비디오 생성 모델(VGMs)은 고품질의 출력물을 합성할 수 있는 능력을 입증했습니다. 이러한 모델이 폭력적이거나 공포스러운 비디오와 같은 안전하지 않은 콘텐츠를 생성할 가능성을 이해하는 것이 중요합니다. 본 연구에서는 안전하지 않은 비디오 생성에 대한 포괄적인 이해를 제공합니다.
먼저, 이러한 모델이 실제로 안전하지 않은 비디오를 생성할 가능성을 확인하기 위해, 4chan과 Lexica에서 수집한 안전하지 않은 콘텐츠 생성 프롬프트와 세 가지 오픈소스 최신 VGMs를 선택하여 안전하지 않은 비디오를 생성했습니다. 중복 및 잘못 생성된 콘텐츠를 필터링한 후, 원래 5607개의 비디오 풀에서 초기 2112개의 안전하지 않은 비디오 세트를 생성했습니다. 이러한 생성된 비디오에 대한 클러스터링 및 주제 코딩 분석을 통해, 우리는 5가지 안전하지 않은 비디오 카테고리를 식별했습니다: 왜곡/이상함, 공포스러움, 포르노그래피, 폭력적/피투성이, 정치적. IRB 승인을 받은 후, 온라인 참가자를 모집하여 생성된 비디오에 라벨을 붙이는 데 도움을 받았습니다. 403명의 참가자가 제출한 주석을 바탕으로, 초기 비디오 세트에서 937개의 안전하지 않은 비디오를 식별했습니다. 라벨링된 정보와 해당 프롬프트를 바탕으로, VGMs에 의해 생성된 안전하지 않은 비디오의 첫 번째 데이터셋을 생성했습니다.
그런 다음, 안전하지 않은 비디오 생성을 방지하기 위한 가능한 방어 메커니즘을 연구했습니다. 이미지 생성 분야의 기존 방어 방법은 입력 프롬프트나 출력 결과를 필터링하는 데 초점을 맞추고 있습니다. 우리는 모델의 내부 샘플링 프로세스 내에서 작동하는 새로운 접근 방식인 잠재 변수 방어(Latent Variable Defense, LVD)를 제안합니다. LVD는 대량의 안전하지 않은 프롬프트를 샘플링할 때 시간과 컴퓨팅 리소스를 10배 줄이면서도 0.90의 방어 정확도를 달성할 수 있습니다.
English
Video generation models (VGMs) have demonstrated the capability to synthesize
high-quality output. It is important to understand their potential to produce
unsafe content, such as violent or terrifying videos. In this work, we provide
a comprehensive understanding of unsafe video generation.
First, to confirm the possibility that these models could indeed generate
unsafe videos, we choose unsafe content generation prompts collected from 4chan
and Lexica, and three open-source SOTA VGMs to generate unsafe videos. After
filtering out duplicates and poorly generated content, we created an initial
set of 2112 unsafe videos from an original pool of 5607 videos. Through
clustering and thematic coding analysis of these generated videos, we identify
5 unsafe video categories: Distorted/Weird, Terrifying, Pornographic,
Violent/Bloody, and Political. With IRB approval, we then recruit online
participants to help label the generated videos. Based on the annotations
submitted by 403 participants, we identified 937 unsafe videos from the initial
video set. With the labeled information and the corresponding prompts, we
created the first dataset of unsafe videos generated by VGMs.
We then study possible defense mechanisms to prevent the generation of unsafe
videos. Existing defense methods in image generation focus on filtering either
input prompt or output results. We propose a new approach called Latent
Variable Defense (LVD), which works within the model's internal sampling
process. LVD can achieve 0.90 defense accuracy while reducing time and
computing resources by 10x when sampling a large number of unsafe prompts.Summary
AI-Generated Summary