FIFO-Diffusion: 훈련 없이 텍스트로부터 무한한 비디오 생성하기FIFO-Diffusion: Generating Infinite Videos from Text without Training
텍스트 조건부 비디오 생성을 위해 사전 학습된 확산 모델 기반의 새로운 추론 기법을 제안한다. FIFO-Diffusion이라 명명된 우리의 접근법은 추가적인 학습 없이도 이론상 무한히 긴 비디오를 생성할 수 있다. 이는 대각선 디노이징(diagonal denoising)을 반복적으로 수행함으로써 달성되는데, 이 방법은 연속적인 프레임 시퀀스를 큐(queue)에 넣어 점진적으로 증가하는 노이즈 레벨로 동시에 처리한다. 우리의 방법은 큐의 헤드(head)에서 완전히 디노이징된 프레임을 디큐(dequeue)하는 동시에 테일(tail)에 새로운 랜덤 노이즈 프레임을 인큐(enqueue)한다. 그러나 대각선 디노이징은 양날의 검인데, 테일 근처의 프레임이 앞선 프레임을 참조하여 더 깨끗한 결과를 얻을 수 있지만, 이러한 전략은 학습과 추론 간의 불일치를 유발한다. 따라서 우리는 학습-추론 간극을 줄이기 위해 잠재 공간 분할(latent partitioning)을 도입하고, 앞선 참조의 이점을 활용하기 위해 룩어헤드 디노이징(lookahead denoising)을 제안한다. 우리는 기존 텍스트-투-비디오 생성 베이스라인에서 제안된 방법들의 유망한 결과와 효과성을 입증하였다.