FlowMo: 비디오 생성에서 일관된 모션을 위한 분산 기반 흐름 가이던스
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
June 1, 2025
저자: Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
cs.AI
초록
텍스트-투-비디오 확산 모델은 움직임, 물리학, 동적 상호작용과 같은 시간적 측면을 모델링하는 데 있어서 잘 알려진 한계를 가지고 있습니다. 기존의 접근 방식은 이러한 한계를 극복하기 위해 모델을 재학습하거나 시간적 일관성을 강제하기 위해 외부 조건 신호를 도입하는 방법을 사용했습니다. 본 연구에서는 추가적인 학습이나 보조 입력 없이 사전 학습된 모델의 예측에서 직접 의미 있는 시간적 표현을 추출할 수 있는지 탐구합니다. 우리는 FlowMo라는 새로운 학습이 필요 없는 가이던스 방법을 소개하며, 이 방법은 각 확산 단계에서 모델의 예측만을 사용하여 움직임의 일관성을 향상시킵니다. FlowMo는 먼저 연속된 프레임에 해당하는 잠재 변수 간의 거리를 측정하여 외관 편향이 제거된 시간적 표현을 도출합니다. 이는 모델이 예측한 암묵적인 시간적 구조를 강조합니다. 그런 다음 시간 차원에서 패치 단위의 분산을 측정하여 움직임 일관성을 추정하고, 샘플링 과정에서 이 분산을 동적으로 줄이도록 모델을 가이드합니다. 다양한 텍스트-투-비디오 모델에 걸친 광범위한 실험을 통해 FlowMo가 시각적 품질이나 프롬프트 정렬을 희생하지 않으면서도 움직임 일관성을 크게 개선함을 입증하였으며, 이는 사전 학습된 비디오 확산 모델의 시간적 충실도를 향상시키는 효과적인 플러그 앤 플레이 솔루션을 제공합니다.
English
Text-to-video diffusion models are notoriously limited in their ability to
model temporal aspects such as motion, physics, and dynamic interactions.
Existing approaches address this limitation by retraining the model or
introducing external conditioning signals to enforce temporal consistency. In
this work, we explore whether a meaningful temporal representation can be
extracted directly from the predictions of a pre-trained model without any
additional training or auxiliary inputs. We introduce FlowMo, a novel
training-free guidance method that enhances motion coherence using only the
model's own predictions in each diffusion step. FlowMo first derives an
appearance-debiased temporal representation by measuring the distance between
latents corresponding to consecutive frames. This highlights the implicit
temporal structure predicted by the model. It then estimates motion coherence
by measuring the patch-wise variance across the temporal dimension and guides
the model to reduce this variance dynamically during sampling. Extensive
experiments across multiple text-to-video models demonstrate that FlowMo
significantly improves motion coherence without sacrificing visual quality or
prompt alignment, offering an effective plug-and-play solution for enhancing
the temporal fidelity of pre-trained video diffusion models.