VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de VídeoVideoJAM: Joint Appearance-Motion Representations for Enhanced Motion
Generation in Video Models
Apesar do tremendo progresso recente, os modelos generativos de vídeo ainda lutam para capturar o movimento, dinâmica e física do mundo real. Mostramos que essa limitação decorre do objetivo convencional de reconstrução de pixels, que enviesa os modelos em direção à fidelidade de aparência em detrimento da coerência de movimento. Para lidar com isso, introduzimos o VideoJAM, um novo framework que incorpora uma prioridade de movimento eficaz aos geradores de vídeo, incentivando o modelo a aprender uma representação conjunta de aparência e movimento. O VideoJAM é composto por duas unidades complementares. Durante o treinamento, estendemos o objetivo para prever tanto os pixels gerados quanto seus movimentos correspondentes a partir de uma única representação aprendida. Durante a inferência, introduzimos o Inner-Guidance, um mecanismo que direciona a geração em direção a um movimento coerente, aproveitando a previsão de movimento em evolução do próprio modelo como um sinal dinâmico de orientação. Notavelmente, nosso framework pode ser aplicado a qualquer modelo de vídeo com adaptações mínimas, não exigindo modificações nos dados de treinamento ou escalonamento do modelo. O VideoJAM alcança um desempenho de ponta em coerência de movimento, superando modelos proprietários altamente competitivos, ao mesmo tempo em que aprimora a qualidade visual percebida das gerações. Essas descobertas enfatizam que a aparência e o movimento podem ser complementares e, quando integrados de forma eficaz, aprimoram tanto a qualidade visual quanto a coerência da geração de vídeo. Website do projeto: https://hila-chefer.github.io/videojam-paper.github.io/