Criação de Vídeo por Demonstração
Video Creation by Demonstration
December 12, 2024
Autores: Yihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu
cs.AI
Resumo
Exploramos uma experiência de criação de vídeo inovadora, denominada Criação de Vídeo por Demonstração. Dado um vídeo de demonstração e uma imagem de contexto de uma cena diferente, geramos um vídeo fisicamente plausível que continua naturalmente a partir da imagem de contexto e executa os conceitos de ação da demonstração. Para habilitar essa capacidade, apresentamos o delta-Diffusion, uma abordagem de treinamento auto-supervisionada que aprende a partir de vídeos não rotulados por meio de previsão condicional de quadros futuros. Ao contrário da maioria dos controles de geração de vídeo existentes que são baseados em sinais explícitos, adotamos a forma de controle latente implícito para máxima flexibilidade e expressividade requerida por vídeos em geral. Ao alavancar um modelo de fundação de vídeo com um design de gargalo de aparência no topo, extraímos latentes de ação dos vídeos de demonstração para condicionar o processo de geração com vazamento mínimo de aparência. Empiricamente, o delta-Diffusion supera baselines relacionadas em termos de preferência humana e avaliações em larga escala de máquinas, e demonstra potenciais em direção à simulação interativa do mundo. Resultados de geração de vídeo amostrados estão disponíveis em https://delta-diffusion.github.io/.
English
We explore a novel video creation experience, namely Video Creation by
Demonstration. Given a demonstration video and a context image from a different
scene, we generate a physically plausible video that continues naturally from
the context image and carries out the action concepts from the demonstration.
To enable this capability, we present delta-Diffusion, a self-supervised
training approach that learns from unlabeled videos by conditional future frame
prediction. Unlike most existing video generation controls that are based on
explicit signals, we adopts the form of implicit latent control for maximal
flexibility and expressiveness required by general videos. By leveraging a
video foundation model with an appearance bottleneck design on top, we extract
action latents from demonstration videos for conditioning the generation
process with minimal appearance leakage. Empirically, delta-Diffusion
outperforms related baselines in terms of both human preference and large-scale
machine evaluations, and demonstrates potentials towards interactive world
simulation. Sampled video generation results are available at
https://delta-diffusion.github.io/.Summary
AI-Generated Summary