VideoJAM: Gemeinsame Erscheinungs-Bewegungs-Repräsentationen zur Verbesserung der Bewegungserzeugung in Videomodellen
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Autoren: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Zusammenfassung
Trotz enormer Fortschritte haben generative Videomodelle immer noch Schwierigkeiten, reale Bewegungen, Dynamiken und Physik einzufangen. Wir zeigen, dass diese Einschränkung aus dem herkömmlichen Pixelrekonstruktionsziel resultiert, das Modelle in Richtung Erscheinungstreue auf Kosten der Bewegungskohärenz beeinflusst. Um dies zu lösen, führen wir VideoJAM ein, ein neuartiges Framework, das einem effektiven Bewegungspriorität für Videogeneratoren einflößt, indem es das Modell dazu ermutigt, eine gemeinsame Erscheinungs-Bewegungs-Repräsentation zu erlernen. VideoJAM besteht aus zwei komplementären Einheiten. Während des Trainings erweitern wir das Ziel, sowohl die generierten Pixel als auch ihre entsprechende Bewegung aus einer einzigen erlernten Repräsentation vorherzusagen. Während der Inferenz führen wir Inner-Guidance ein, einen Mechanismus, der die Generierung durch Nutzung der eigenen sich entwickelnden Bewegungsvorhersage des Modells als dynamisches Leitsignal in Richtung kohärenter Bewegung lenkt. Bemerkenswert ist, dass unser Framework auf jedes Videomodell mit minimalen Anpassungen angewendet werden kann, ohne Änderungen an den Trainingsdaten oder Skalierung des Modells zu erfordern. VideoJAM erreicht eine Spitzenleistung in Bewegungskohärenz, übertrifft hochkonkurrierende proprietäre Modelle und verbessert gleichzeitig die wahrgenommene visuelle Qualität der Generierungen. Diese Ergebnisse betonen, dass Erscheinung und Bewegung komplementär sein können und, wenn effektiv integriert, sowohl die visuelle Qualität als auch die Kohärenz der Videogenerierung verbessern können. Projektwebsite: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary