VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models
February 4, 2025
Autores: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI
Resumo
Apesar do tremendo progresso recente, os modelos generativos de vídeo ainda lutam para capturar o movimento, dinâmica e física do mundo real. Mostramos que essa limitação decorre do objetivo convencional de reconstrução de pixels, que enviesa os modelos em direção à fidelidade de aparência em detrimento da coerência de movimento. Para lidar com isso, introduzimos o VideoJAM, um novo framework que incorpora uma prioridade de movimento eficaz aos geradores de vídeo, incentivando o modelo a aprender uma representação conjunta de aparência e movimento. O VideoJAM é composto por duas unidades complementares. Durante o treinamento, estendemos o objetivo para prever tanto os pixels gerados quanto seus movimentos correspondentes a partir de uma única representação aprendida. Durante a inferência, introduzimos o Inner-Guidance, um mecanismo que direciona a geração em direção a um movimento coerente, aproveitando a previsão de movimento em evolução do próprio modelo como um sinal dinâmico de orientação. Notavelmente, nosso framework pode ser aplicado a qualquer modelo de vídeo com adaptações mínimas, não exigindo modificações nos dados de treinamento ou escalonamento do modelo. O VideoJAM alcança um desempenho de ponta em coerência de movimento, superando modelos proprietários altamente competitivos, ao mesmo tempo em que aprimora a qualidade visual percebida das gerações. Essas descobertas enfatizam que a aparência e o movimento podem ser complementares e, quando integrados de forma eficaz, aprimoram tanto a qualidade visual quanto a coerência da geração de vídeo. Website do projeto: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to
capture real-world motion, dynamics, and physics. We show that this limitation
arises from the conventional pixel reconstruction objective, which biases
models toward appearance fidelity at the expense of motion coherence. To
address this, we introduce VideoJAM, a novel framework that instills an
effective motion prior to video generators, by encouraging the model to learn a
joint appearance-motion representation. VideoJAM is composed of two
complementary units. During training, we extend the objective to predict both
the generated pixels and their corresponding motion from a single learned
representation. During inference, we introduce Inner-Guidance, a mechanism that
steers the generation toward coherent motion by leveraging the model's own
evolving motion prediction as a dynamic guidance signal. Notably, our framework
can be applied to any video model with minimal adaptations, requiring no
modifications to the training data or scaling of the model. VideoJAM achieves
state-of-the-art performance in motion coherence, surpassing highly competitive
proprietary models while also enhancing the perceived visual quality of the
generations. These findings emphasize that appearance and motion can be
complementary and, when effectively integrated, enhance both the visual quality
and the coherence of video generation. Project website:
https://hila-chefer.github.io/videojam-paper.github.io/Summary
AI-Generated Summary