ChatPaper.aiChatPaper

FlowMo : Guidage de flux basé sur la variance pour un mouvement cohérent dans la génération vidéo

FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

June 1, 2025
papers.authors: Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer
cs.AI

papers.abstract

Les modèles de diffusion texte-vidéo sont notoirement limités dans leur capacité à modéliser les aspects temporels tels que le mouvement, la physique et les interactions dynamiques. Les approches existantes tentent de pallier cette limitation en réentraînant le modèle ou en introduisant des signaux de conditionnement externes pour imposer une cohérence temporelle. Dans ce travail, nous explorons si une représentation temporelle significative peut être extraite directement des prédictions d'un modèle pré-entraîné, sans aucun entraînement supplémentaire ni entrées auxiliaires. Nous présentons FlowMo, une nouvelle méthode d'orientation sans entraînement qui améliore la cohérence du mouvement en utilisant uniquement les prédictions du modèle à chaque étape de diffusion. FlowMo dérive d'abord une représentation temporelle débarrassée des aspects d'apparence en mesurant la distance entre les latents correspondant à des images consécutives. Cela met en évidence la structure temporelle implicite prédite par le modèle. Il estime ensuite la cohérence du mouvement en mesurant la variance par patchs sur la dimension temporelle et guide le modèle pour réduire dynamiquement cette variance pendant l'échantillonnage. Des expériences approfondies sur plusieurs modèles texte-vidéo démontrent que FlowMo améliore significativement la cohérence du mouvement sans sacrifier la qualité visuelle ou l'alignement avec l'invite, offrant ainsi une solution plug-and-play efficace pour améliorer la fidélité temporelle des modèles de diffusion vidéo pré-entraînés.
English
Text-to-video diffusion models are notoriously limited in their ability to model temporal aspects such as motion, physics, and dynamic interactions. Existing approaches address this limitation by retraining the model or introducing external conditioning signals to enforce temporal consistency. In this work, we explore whether a meaningful temporal representation can be extracted directly from the predictions of a pre-trained model without any additional training or auxiliary inputs. We introduce FlowMo, a novel training-free guidance method that enhances motion coherence using only the model's own predictions in each diffusion step. FlowMo first derives an appearance-debiased temporal representation by measuring the distance between latents corresponding to consecutive frames. This highlights the implicit temporal structure predicted by the model. It then estimates motion coherence by measuring the patch-wise variance across the temporal dimension and guides the model to reduce this variance dynamically during sampling. Extensive experiments across multiple text-to-video models demonstrate that FlowMo significantly improves motion coherence without sacrificing visual quality or prompt alignment, offering an effective plug-and-play solution for enhancing the temporal fidelity of pre-trained video diffusion models.
PDF142June 4, 2025