Criação de Vídeo por Demonstração

Resumo

Exploramos uma experiência de criação de vídeo inovadora, denominada Criação de Vídeo por Demonstração. Dado um vídeo de demonstração e uma imagem de contexto de uma cena diferente, geramos um vídeo fisicamente plausível que continua naturalmente a partir da imagem de contexto e executa os conceitos de ação da demonstração. Para habilitar essa capacidade, apresentamos o delta-Diffusion, uma abordagem de treinamento auto-supervisionada que aprende a partir de vídeos não rotulados por meio de previsão condicional de quadros futuros. Ao contrário da maioria dos controles de geração de vídeo existentes que são baseados em sinais explícitos, adotamos a forma de controle latente implícito para máxima flexibilidade e expressividade requerida por vídeos em geral. Ao alavancar um modelo de fundação de vídeo com um design de gargalo de aparência no topo, extraímos latentes de ação dos vídeos de demonstração para condicionar o processo de geração com vazamento mínimo de aparência. Empiricamente, o delta-Diffusion supera baselines relacionadas em termos de preferência humana e avaliações em larga escala de máquinas, e demonstra potenciais em direção à simulação interativa do mundo. Resultados de geração de vídeo amostrados estão disponíveis em https://delta-diffusion.github.io/.

English

We explore a novel video creation experience, namely Video Creation by Demonstration. Given a demonstration video and a context image from a different scene, we generate a physically plausible video that continues naturally from the context image and carries out the action concepts from the demonstration. To enable this capability, we present delta-Diffusion, a self-supervised training approach that learns from unlabeled videos by conditional future frame prediction. Unlike most existing video generation controls that are based on explicit signals, we adopts the form of implicit latent control for maximal flexibility and expressiveness required by general videos. By leveraging a video foundation model with an appearance bottleneck design on top, we extract action latents from demonstration videos for conditioning the generation process with minimal appearance leakage. Empirically, delta-Diffusion outperforms related baselines in terms of both human preference and large-scale machine evaluations, and demonstrates potentials towards interactive world simulation. Sampled video generation results are available at https://delta-diffusion.github.io/.