VideoUFO: 텍스트-비디오 생성을 위한 백만 규모 사용자 중심 데이터셋
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation
March 3, 2025
저자: Wenhao Wang, Yi Yang
cs.AI
초록
텍스트-투-비디오 생성 모델은 텍스트 프롬프트를 동적 시각 콘텐츠로 변환하여 영화 제작, 게임, 교육 등 다양한 분야에서 활용될 수 있습니다. 그러나 이러한 모델들의 실제 성능은 종종 사용자 기대에 미치지 못합니다. 주요 이유 중 하나는 사용자가 생성하고자 하는 일부 주제와 관련된 비디오로 이러한 모델들이 훈련되지 않았기 때문입니다. 본 논문에서는 사용자의 실제 시나리오에서의 관심사와 일치하도록 특별히 선별된 최초의 비디오 데이터셋인 VideoUFO를 제안합니다. 또한, VideoUFO는 (1) 기존 비디오 데이터셋과의 중복이 최소화된(0.29%) 특징과 (2) YouTube의 공식 API를 통해 크리에이티브 커먼즈 라이선스 하에 독점적으로 검색된 비디오를 포함합니다. 이러한 두 가지 특성은 향후 연구자들이 훈련 소스를 확장하는 데 더 큰 자유를 제공합니다. VideoUFO는 109만 개 이상의 비디오 클립으로 구성되며, 각 클립은 간단한 캡션과 상세한 설명(description)과 짝을 이룹니다. 구체적으로, 클러스터링을 통해 백만 규모의 실제 텍스트-투-비디오 프롬프트 데이터셋인 VidProM에서 1,291개의 사용자 중심 주제를 식별합니다. 그런 다음, 이러한 주제를 사용하여 YouTube에서 비디오를 검색하고, 검색된 비디오를 클립으로 분할한 후 각 클립에 대해 간단한 캡션과 상세한 설명을 생성합니다. 지정된 주제와 일치하는 클립을 검증한 후, 약 109만 개의 비디오 클립이 남습니다. 우리의 실험 결과는 (1) 현재의 16개 텍스트-투-비디오 모델이 모든 사용자 중심 주제에서 일관된 성능을 보이지 않으며, (2) VideoUFO로 훈련된 간단한 모델이 가장 낮은 성능을 보이는 주제에서 다른 모델들을 능가한다는 것을 보여줍니다. 이 데이터셋은 CC BY 4.0 라이선스 하에 https://huggingface.co/datasets/WenhaoWang/VideoUFO에서 공개적으로 이용 가능합니다.
English
Text-to-video generative models convert textual prompts into dynamic visual
content, offering wide-ranging applications in film production, gaming, and
education. However, their real-world performance often falls short of user
expectations. One key reason is that these models have not been trained on
videos related to some topics users want to create. In this paper, we propose
VideoUFO, the first Video dataset specifically curated to align with Users'
FOcus in real-world scenarios. Beyond this, our VideoUFO also features: (1)
minimal (0.29%) overlap with existing video datasets, and (2) videos
searched exclusively via YouTube's official API under the Creative Commons
license. These two attributes provide future researchers with greater freedom
to broaden their training sources. The VideoUFO comprises over 1.09 million
video clips, each paired with both a brief and a detailed caption
(description). Specifically, through clustering, we first identify 1,291
user-focused topics from the million-scale real text-to-video prompt dataset,
VidProM. Then, we use these topics to retrieve videos from YouTube, split the
retrieved videos into clips, and generate both brief and detailed captions for
each clip. After verifying the clips with specified topics, we are left with
about 1.09 million video clips. Our experiments reveal that (1) current 16
text-to-video models do not achieve consistent performance across all
user-focused topics; and (2) a simple model trained on VideoUFO outperforms
others on worst-performing topics. The dataset is publicly available at
https://huggingface.co/datasets/WenhaoWang/VideoUFO under the CC BY 4.0
License.Summary
AI-Generated Summary