VideoJAM: Gezamenlijke Verschijnings-Bewegingsrepresentaties voor Verbeterde Bewegingsgeneratie in Videomodellen
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Auteurs: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Samenvatting
Ondanks enorme recente vooruitgang hebben generatieve videomodellen nog steeds moeite om echte beweging, dynamiek en natuurkunde vast te leggen. We tonen aan dat deze beperking voortkomt uit het conventionele objectief van pixelreconstructie, dat modellen beïnvloedt om te streven naar uiterlijke gelijkenis ten koste van bewegingscoherentie. Om dit aan te pakken, introduceren we VideoJAM, een nieuw raamwerk dat een effectieve bewegingsprioriteit inblaast bij videogeneratoren, door het model aan te moedigen om een gezamenlijke verschijnings-bewegingsrepresentatie te leren. VideoJAM bestaat uit twee complementaire eenheden. Tijdens training breiden we het objectief uit om zowel de gegenereerde pixels als hun overeenkomstige beweging te voorspellen vanuit een enkele aangeleerde representatie. Tijdens inferentie introduceren we Inner-Guidance, een mechanisme dat de generatie stuurt naar coherente beweging door gebruik te maken van de voortschrijdende bewegingsvoorspelling van het model als dynamisch begeleidingssignaal. Opmerkelijk genoeg kan ons raamwerk worden toegepast op elk videomodel met minimale aanpassingen, zonder wijzigingen aan de trainingsgegevens of schaling van het model. VideoJAM behaalt state-of-the-art prestaties in bewegingscoherentie, overtreft zeer competitieve gepatenteerde modellen en verbetert ook de waargenomen visuele kwaliteit van de gegenereerde beelden. Deze bevindingen benadrukken dat verschijning en beweging complementair kunnen zijn en, wanneer effectief geïntegreerd, zowel de visuele kwaliteit als de coherentie van videogeneratie verbeteren. Projectwebsite: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary