ChatPaper.aiChatPaper

VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

February 4, 2025
Autores: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI

Resumo

Apesar do tremendo progresso recente, os modelos generativos de vídeo ainda lutam para capturar o movimento, dinâmica e física do mundo real. Mostramos que essa limitação decorre do objetivo convencional de reconstrução de pixels, que enviesa os modelos em direção à fidelidade de aparência em detrimento da coerência de movimento. Para lidar com isso, introduzimos o VideoJAM, um novo framework que incorpora uma prioridade de movimento eficaz aos geradores de vídeo, incentivando o modelo a aprender uma representação conjunta de aparência e movimento. O VideoJAM é composto por duas unidades complementares. Durante o treinamento, estendemos o objetivo para prever tanto os pixels gerados quanto seus movimentos correspondentes a partir de uma única representação aprendida. Durante a inferência, introduzimos o Inner-Guidance, um mecanismo que direciona a geração em direção a um movimento coerente, aproveitando a previsão de movimento em evolução do próprio modelo como um sinal dinâmico de orientação. Notavelmente, nosso framework pode ser aplicado a qualquer modelo de vídeo com adaptações mínimas, não exigindo modificações nos dados de treinamento ou escalonamento do modelo. O VideoJAM alcança um desempenho de ponta em coerência de movimento, superando modelos proprietários altamente competitivos, ao mesmo tempo em que aprimora a qualidade visual percebida das gerações. Essas descobertas enfatizam que a aparência e o movimento podem ser complementares e, quando integrados de forma eficaz, aprimoram tanto a qualidade visual quanto a coerência da geração de vídeo. Website do projeto: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to capture real-world motion, dynamics, and physics. We show that this limitation arises from the conventional pixel reconstruction objective, which biases models toward appearance fidelity at the expense of motion coherence. To address this, we introduce VideoJAM, a novel framework that instills an effective motion prior to video generators, by encouraging the model to learn a joint appearance-motion representation. VideoJAM is composed of two complementary units. During training, we extend the objective to predict both the generated pixels and their corresponding motion from a single learned representation. During inference, we introduce Inner-Guidance, a mechanism that steers the generation toward coherent motion by leveraging the model's own evolving motion prediction as a dynamic guidance signal. Notably, our framework can be applied to any video model with minimal adaptations, requiring no modifications to the training data or scaling of the model. VideoJAM achieves state-of-the-art performance in motion coherence, surpassing highly competitive proprietary models while also enhancing the perceived visual quality of the generations. These findings emphasize that appearance and motion can be complementary and, when effectively integrated, enhance both the visual quality and the coherence of video generation. Project website: https://hila-chefer.github.io/videojam-paper.github.io/

Summary

AI-Generated Summary

PDF658February 5, 2025