FlowMo: Orientação de Fluxo Baseada em Variância para Movimento Coerente na Geração de Vídeos
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
June 1, 2025
Autores: Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
cs.AI
Resumo
Modelos de difusão de texto para vídeo são notoriamente limitados em sua capacidade de modelar aspectos temporais, como movimento, física e interações dinâmicas. As abordagens existentes lidam com essa limitação retreinando o modelo ou introduzindo sinais de condicionamento externos para impor consistência temporal. Neste trabalho, exploramos se uma representação temporal significativa pode ser extraída diretamente das previsões de um modelo pré-treinado, sem qualquer treinamento adicional ou entradas auxiliares. Apresentamos o FlowMo, um novo método de orientação sem treinamento que melhora a coerência do movimento utilizando apenas as próprias previsões do modelo em cada etapa de difusão. O FlowMo primeiro deriva uma representação temporal desviada de aparência, medindo a distância entre latentes correspondentes a quadros consecutivos. Isso destaca a estrutura temporal implícita prevista pelo modelo. Em seguida, estima a coerência do movimento medindo a variância por fragmentos ao longo da dimensão temporal e orienta o modelo a reduzir essa variância dinamicamente durante a amostragem. Experimentos extensos em vários modelos de texto para vídeo demonstram que o FlowMo melhora significativamente a coerência do movimento sem sacrificar a qualidade visual ou o alinhamento com o prompt, oferecendo uma solução eficaz de plug-and-play para aprimorar a fidelidade temporal de modelos de difusão de vídeo pré-treinados.
English
Text-to-video diffusion models are notoriously limited in their ability to
model temporal aspects such as motion, physics, and dynamic interactions.
Existing approaches address this limitation by retraining the model or
introducing external conditioning signals to enforce temporal consistency. In
this work, we explore whether a meaningful temporal representation can be
extracted directly from the predictions of a pre-trained model without any
additional training or auxiliary inputs. We introduce FlowMo, a novel
training-free guidance method that enhances motion coherence using only the
model's own predictions in each diffusion step. FlowMo first derives an
appearance-debiased temporal representation by measuring the distance between
latents corresponding to consecutive frames. This highlights the implicit
temporal structure predicted by the model. It then estimates motion coherence
by measuring the patch-wise variance across the temporal dimension and guides
the model to reduce this variance dynamically during sampling. Extensive
experiments across multiple text-to-video models demonstrate that FlowMo
significantly improves motion coherence without sacrificing visual quality or
prompt alignment, offering an effective plug-and-play solution for enhancing
the temporal fidelity of pre-trained video diffusion models.