ChatPaper.aiChatPaper

FIFO-Diffusion: 훈련 없이 텍스트로부터 무한한 비디오 생성하기

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
저자: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

초록

텍스트 조건부 비디오 생성을 위해 사전 학습된 확산 모델 기반의 새로운 추론 기법을 제안한다. FIFO-Diffusion이라 명명된 우리의 접근법은 추가적인 학습 없이도 이론상 무한히 긴 비디오를 생성할 수 있다. 이는 대각선 디노이징(diagonal denoising)을 반복적으로 수행함으로써 달성되는데, 이 방법은 연속적인 프레임 시퀀스를 큐(queue)에 넣어 점진적으로 증가하는 노이즈 레벨로 동시에 처리한다. 우리의 방법은 큐의 헤드(head)에서 완전히 디노이징된 프레임을 디큐(dequeue)하는 동시에 테일(tail)에 새로운 랜덤 노이즈 프레임을 인큐(enqueue)한다. 그러나 대각선 디노이징은 양날의 검인데, 테일 근처의 프레임이 앞선 프레임을 참조하여 더 깨끗한 결과를 얻을 수 있지만, 이러한 전략은 학습과 추론 간의 불일치를 유발한다. 따라서 우리는 학습-추론 간극을 줄이기 위해 잠재 공간 분할(latent partitioning)을 도입하고, 앞선 참조의 이점을 활용하기 위해 룩어헤드 디노이징(lookahead denoising)을 제안한다. 우리는 기존 텍스트-투-비디오 생성 베이스라인에서 제안된 방법들의 유망한 결과와 효과성을 입증하였다.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.

Summary

AI-Generated Summary

PDF588December 15, 2024