ActAnywhere: Generación de Fondos de Video Conscientes del Sujeto
ActAnywhere: Subject-Aware Video Background Generation
January 19, 2024
Autores: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI
Resumen
Generar fondos de video que se adapten al movimiento del sujeto en primer plano es un problema importante para la industria cinematográfica y la comunidad de efectos visuales. Esta tarea implica sintetizar un fondo que se alinee con el movimiento y la apariencia del sujeto en primer plano, al mismo tiempo que cumple con la intención creativa del artista. Presentamos ActAnywhere, un modelo generativo que automatiza este proceso, el cual tradicionalmente requiere esfuerzos manuales tediosos. Nuestro modelo aprovecha el poder de los modelos de difusión de video a gran escala y está específicamente diseñado para esta tarea. ActAnywhere toma como entrada una secuencia de segmentación del sujeto en primer plano y una imagen que describe la escena deseada como condición, para producir un video coherente con interacciones realistas entre el primer plano y el fondo, mientras se adhiere al marco de la condición. Entrenamos nuestro modelo en un conjunto de datos a gran escala de videos de interacción humano-escena. Evaluaciones exhaustivas demuestran el rendimiento superior de nuestro modelo, superando significativamente a los métodos de referencia. Además, mostramos que ActAnywhere generaliza a diversas muestras fuera de distribución, incluyendo sujetos no humanos. Visite nuestra página del proyecto en https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an
important problem for the movie industry and visual effects community. This
task involves synthesizing background that aligns with the motion and
appearance of the foreground subject, while also complies with the artist's
creative intention. We introduce ActAnywhere, a generative model that automates
this process which traditionally requires tedious manual efforts. Our model
leverages the power of large-scale video diffusion models, and is specifically
tailored for this task. ActAnywhere takes a sequence of foreground subject
segmentation as input and an image that describes the desired scene as
condition, to produce a coherent video with realistic foreground-background
interactions while adhering to the condition frame. We train our model on a
large-scale dataset of human-scene interaction videos. Extensive evaluations
demonstrate the superior performance of our model, significantly outperforming
baselines. Moreover, we show that ActAnywhere generalizes to diverse
out-of-distribution samples, including non-human subjects. Please visit our
project webpage at https://actanywhere.github.io.