VideoJAM: Representaciones Conjuntas de Apariencia y Movimiento para una Generación de Movimiento Mejorada en Modelos de Video
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Autores: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Resumen
A pesar del tremendo progreso reciente, los modelos generativos de video todavía tienen dificultades para capturar el movimiento, la dinámica y la física del mundo real. Mostramos que esta limitación surge del objetivo convencional de reconstrucción de píxeles, que sesga a los modelos hacia la fidelidad de apariencia en detrimento de la coherencia del movimiento. Para abordar esto, presentamos VideoJAM, un nuevo marco que inculca una prioridad efectiva de movimiento a los generadores de video, al fomentar que el modelo aprenda una representación conjunta de apariencia y movimiento. VideoJAM se compone de dos unidades complementarias. Durante el entrenamiento, ampliamos el objetivo para predecir tanto los píxeles generados como su movimiento correspondiente a partir de una única representación aprendida. Durante la inferencia, introducimos Inner-Guidance, un mecanismo que dirige la generación hacia un movimiento coherente al aprovechar la predicción de movimiento en evolución del modelo como una señal dinámica de guía. Notablemente, nuestro marco se puede aplicar a cualquier modelo de video con adaptaciones mínimas, sin necesidad de modificar los datos de entrenamiento o escalar el modelo. VideoJAM logra un rendimiento de vanguardia en coherencia de movimiento, superando a modelos propietarios altamente competitivos y mejorando la calidad visual percibida de las generaciones. Estos hallazgos enfatizan que la apariencia y el movimiento pueden ser complementarios y, cuando se integran de manera efectiva, mejoran tanto la calidad visual como la coherencia de la generación de video. Sitio web del proyecto: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary