ChatPaper.aiChatPaper

FlowMo: Orientação de Fluxo Baseada em Variância para Movimento Coerente na Geração de Vídeos

FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

June 1, 2025
Autores: Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
cs.AI

Resumo

Modelos de difusão de texto para vídeo são notoriamente limitados em sua capacidade de modelar aspectos temporais, como movimento, física e interações dinâmicas. As abordagens existentes lidam com essa limitação retreinando o modelo ou introduzindo sinais de condicionamento externos para impor consistência temporal. Neste trabalho, exploramos se uma representação temporal significativa pode ser extraída diretamente das previsões de um modelo pré-treinado, sem qualquer treinamento adicional ou entradas auxiliares. Apresentamos o FlowMo, um novo método de orientação sem treinamento que melhora a coerência do movimento utilizando apenas as próprias previsões do modelo em cada etapa de difusão. O FlowMo primeiro deriva uma representação temporal desviada de aparência, medindo a distância entre latentes correspondentes a quadros consecutivos. Isso destaca a estrutura temporal implícita prevista pelo modelo. Em seguida, estima a coerência do movimento medindo a variância por fragmentos ao longo da dimensão temporal e orienta o modelo a reduzir essa variância dinamicamente durante a amostragem. Experimentos extensos em vários modelos de texto para vídeo demonstram que o FlowMo melhora significativamente a coerência do movimento sem sacrificar a qualidade visual ou o alinhamento com o prompt, oferecendo uma solução eficaz de plug-and-play para aprimorar a fidelidade temporal de modelos de difusão de vídeo pré-treinados.
English
Text-to-video diffusion models are notoriously limited in their ability to model temporal aspects such as motion, physics, and dynamic interactions. Existing approaches address this limitation by retraining the model or introducing external conditioning signals to enforce temporal consistency. In this work, we explore whether a meaningful temporal representation can be extracted directly from the predictions of a pre-trained model without any additional training or auxiliary inputs. We introduce FlowMo, a novel training-free guidance method that enhances motion coherence using only the model's own predictions in each diffusion step. FlowMo first derives an appearance-debiased temporal representation by measuring the distance between latents corresponding to consecutive frames. This highlights the implicit temporal structure predicted by the model. It then estimates motion coherence by measuring the patch-wise variance across the temporal dimension and guides the model to reduce this variance dynamically during sampling. Extensive experiments across multiple text-to-video models demonstrate that FlowMo significantly improves motion coherence without sacrificing visual quality or prompt alignment, offering an effective plug-and-play solution for enhancing the temporal fidelity of pre-trained video diffusion models.
PDF142June 4, 2025