미래 스케치하기(Sketching the Future, STF): 텍스트-투-비디오 모델에 조건부 제어 기법 적용하기
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models
May 10, 2023
저자: Rohan Dhesikan, Vignesh Rajmohan
cs.AI
초록
비디오 콘텐츠의 확산은 새로운 비디오 콘텐츠를 생성하기 위해 효율적이고 유연한 신경망 기반 접근법을 요구하고 있다. 본 논문에서는 제로샷 텍스트-투-비디오 생성과 ControlNet을 결합하여 이러한 모델의 출력을 개선하는 새로운 접근법을 제안한다. 우리의 방법은 여러 스케치 프레임을 입력으로 받아 이 프레임들의 흐름과 일치하는 비디오 출력을 생성하며, Text-to-Video Zero 아키텍처를 기반으로 하여 ControlNet을 통한 추가 입력 조건을 가능하게 한다. 입력된 스케치들 사이의 프레임을 먼저 보간한 다음, 새로운 보간된 프레임 비디오를 제어 기법으로 사용하여 Text-to-Video Zero를 실행함으로써, 제로샷 텍스트-투-비디오 생성의 이점과 ControlNet이 제공하는 강력한 제어 기능을 모두 활용한다. 실험 결과, 우리의 방법은 사용자가 의도한 비디오 내 주제의 움직임을 더 정확하게 반영하는 고품질이고 매우 일관된 비디오 콘텐츠를 생성하는 데 탁월한 성능을 보인다. 우리는 제안된 방법의 추가 연구와 응용을 촉진하기 위해 데모 비디오, 프로젝트 웹사이트, 오픈소스 GitHub 저장소, 그리고 Colab 플레이그라운드를 포함한 포괄적인 리소스 패키지를 제공한다.
English
The proliferation of video content demands efficient and flexible neural
network based approaches for generating new video content. In this paper, we
propose a novel approach that combines zero-shot text-to-video generation with
ControlNet to improve the output of these models. Our method takes multiple
sketched frames as input and generates video output that matches the flow of
these frames, building upon the Text-to-Video Zero architecture and
incorporating ControlNet to enable additional input conditions. By first
interpolating frames between the inputted sketches and then running
Text-to-Video Zero using the new interpolated frames video as the control
technique, we leverage the benefits of both zero-shot text-to-video generation
and the robust control provided by ControlNet. Experiments demonstrate that our
method excels at producing high-quality and remarkably consistent video content
that more accurately aligns with the user's intended motion for the subject
within the video. We provide a comprehensive resource package, including a demo
video, project website, open-source GitHub repository, and a Colab playground
to foster further research and application of our proposed method.