VideoJAM: Rappresentazioni Coniugate di Aspetto e Movimento per una Generazione Migliorata del Movimento nei Modelli Video
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Autori: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Abstract
Nonostante i notevoli progressi recenti, i modelli generativi di video faticano ancora a catturare il movimento, la dinamica e la fisica del mondo reale. Dimostriamo che questa limitazione deriva dall'obiettivo convenzionale di ricostruzione dei pixel, che porta i modelli a privilegiare la fedeltà all'aspetto a discapito della coerenza del movimento. Per affrontare questo problema, introduciamo VideoJAM, un nuovo framework che infonde una priorità efficace al movimento nei generatori di video, incoraggiando il modello a imparare una rappresentazione congiunta di aspetto e movimento. VideoJAM è composto da due unità complementari. Durante l'addestramento, estendiamo l'obiettivo per prevedere sia i pixel generati che il loro movimento corrispondente da una singola rappresentazione appresa. Durante l'inferenza, introduciamo Inner-Guidance, un meccanismo che guida la generazione verso un movimento coerente sfruttando la previsione dinamica in evoluzione del modello come segnale guida dinamico. In particolare, il nostro framework può essere applicato a qualsiasi modello video con adattamenti minimi, senza richiedere modifiche ai dati di addestramento o alla scalabilità del modello. VideoJAM raggiunge prestazioni all'avanguardia nella coerenza del movimento, superando modelli proprietari altamente competitivi migliorando anche la qualità visiva percepita delle generazioni. Questi risultati sottolineano che l'aspetto e il movimento possono essere complementari e, quando integrati in modo efficace, migliorano sia la qualità visiva che la coerenza della generazione di video. Sito web del progetto: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary