ChatPaper.aiChatPaper

Mobius: 잠재 공간 이동을 통한 텍스트-원활한 루핑 비디오 생성

Mobius: Text to Seamless Looping Video Generation via Latent Shift

February 27, 2025
저자: Xiuli Bi, Jianfei Yuan, Bo Liu, Yong Zhang, Xiaodong Cun, Chi-Man Pun, Bin Xiao
cs.AI

초록

우리는 텍스트 설명으로부터 직접 사용자 주석 없이도 원활하게 반복되는 비디오를 생성하는 새로운 방법인 Mobius를 제안합니다. 이를 통해 멀티미디어 프레젠테이션을 위한 새로운 시각적 자료를 창출합니다. 우리의 방법은 사전 훈련된 비디오 잠재 확산 모델을 재활용하여 텍스트 프롬프트로부터 반복 비디오를 생성하며, 추가적인 훈련이 필요하지 않습니다. 추론 과정에서, 우리는 먼저 비디오의 시작과 끝 노이즈를 연결하여 잠재적 순환 구조를 구성합니다. 비디오 확산 모델의 컨텍스트를 통해 시간적 일관성을 유지할 수 있으므로, 각 단계에서 첫 프레임의 잠재 상태를 끝으로 점진적으로 이동시키며 다중 프레임 잡음 제거를 수행합니다. 그 결과, 추론 과정 전반에 걸쳐 일관성을 유지하면서도 각 단계에서 잡음 제거 컨텍스트가 변화합니다. 또한, 우리 방법의 잠재적 순환 구조는 어떤 길이든 가능하며, 이는 비디오 확산 모델의 컨텍스트 범위를 넘어서는 원활한 반복 비디오 생성을 위한 잠재적 이동 접근법을 확장합니다. 기존의 시네마그래프와 달리, 제안된 방법은 생성 결과의 움직임을 제한할 수 있는 이미지를 외관으로 요구하지 않습니다. 대신, 우리의 방법은 더 역동적인 움직임과 더 나은 시각적 품질을 생성할 수 있습니다. 우리는 제안된 방법의 효과를 검증하기 위해 다양한 실험과 비교를 수행하며, 다양한 시나리오에서의 효용성을 입증합니다. 모든 코드는 공개될 예정입니다.
English
We present Mobius, a novel method to generate seamlessly looping videos from text descriptions directly without any user annotations, thereby creating new visual materials for the multi-media presentation. Our method repurposes the pre-trained video latent diffusion model for generating looping videos from text prompts without any training. During inference, we first construct a latent cycle by connecting the starting and ending noise of the videos. Given that the temporal consistency can be maintained by the context of the video diffusion model, we perform multi-frame latent denoising by gradually shifting the first-frame latent to the end in each step. As a result, the denoising context varies in each step while maintaining consistency throughout the inference process. Moreover, the latent cycle in our method can be of any length. This extends our latent-shifting approach to generate seamless looping videos beyond the scope of the video diffusion model's context. Unlike previous cinemagraphs, the proposed method does not require an image as appearance, which will restrict the motions of the generated results. Instead, our method can produce more dynamic motion and better visual quality. We conduct multiple experiments and comparisons to verify the effectiveness of the proposed method, demonstrating its efficacy in different scenarios. All the code will be made available.

Summary

AI-Generated Summary

PDF192February 28, 2025