VideoJAM : Représentations conjointes apparence-mouvement pour une génération de mouvement améliorée dans les modèles vidéo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Auteurs: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Résumé
Malgré les progrès récents considérables, les modèles génératifs de vidéos peinent encore à capturer le mouvement, la dynamique et la physique du monde réel. Nous montrons que cette limitation découle de l'objectif conventionnel de reconstruction des pixels, qui oriente les modèles vers la fidélité de l'apparence au détriment de la cohérence du mouvement. Pour remédier à cela, nous introduisons VideoJAM, un nouveau cadre qui insuffle une contrainte de mouvement efficace aux générateurs de vidéos, en encourageant le modèle à apprendre une représentation conjointe apparence-mouvement. VideoJAM est composé de deux unités complémentaires. Pendant l'entraînement, nous étendons l'objectif pour prédire à la fois les pixels générés et leur mouvement correspondant à partir d'une seule représentation apprise. Lors de l'inférence, nous introduisons Inner-Guidance, un mécanisme qui guide la génération vers un mouvement cohérent en exploitant la prédiction de mouvement évolutive du modèle comme signal de guidage dynamique. Notamment, notre cadre peut être appliqué à tout modèle vidéo avec des adaptations minimales, ne nécessitant aucune modification des données d'entraînement ou mise à l'échelle du modèle. VideoJAM atteint des performances de pointe en matière de cohérence du mouvement, dépassant des modèles propriétaires hautement compétitifs tout en améliorant la qualité visuelle perçue des générations. Ces résultats soulignent que l'apparence et le mouvement peuvent être complémentaires et, lorsqu'ils sont intégrés de manière efficace, améliorent à la fois la qualité visuelle et la cohérence de la génération de vidéos. Site web du projet : https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary