ChatPaper.aiChatPaper

ActAnywhere: Geração de Fundo de Vídeo com Consciência do Sujeito

ActAnywhere: Subject-Aware Video Background Generation

January 19, 2024
Autores: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI

Resumo

Gerar fundos de vídeo que se adaptem ao movimento do objeto em primeiro plano é um problema importante para a indústria cinematográfica e a comunidade de efeitos visuais. Essa tarefa envolve a síntese de fundos que se alinham ao movimento e à aparência do objeto em primeiro plano, ao mesmo tempo em que atendem à intenção criativa do artista. Apresentamos o ActAnywhere, um modelo generativo que automatiza esse processo, que tradicionalmente requer esforços manuais tediosos. Nosso modelo aproveita o poder dos modelos de difusão de vídeo em larga escala e é especificamente adaptado para essa tarefa. O ActAnywhere recebe como entrada uma sequência de segmentação do objeto em primeiro plano e uma imagem que descreve a cena desejada como condição, para produzir um vídeo coerente com interações realistas entre primeiro plano e fundo, enquanto adere ao quadro de condição. Treinamos nosso modelo em um conjunto de dados em larga escala de vídeos de interação humano-cena. Avaliações extensivas demonstram o desempenho superior do nosso modelo, superando significativamente as linhas de base. Além disso, mostramos que o ActAnywhere generaliza para diversas amostras fora da distribuição, incluindo objetos não humanos. Visite nossa página do projeto em https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
PDF132December 15, 2024