ActAnywhere: Onderwerpbewuste Videobackgroundgeneratie
ActAnywhere: Subject-Aware Video Background Generation
January 19, 2024
Auteurs: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI
Samenvatting
Het genereren van een videobackground die is afgestemd op de beweging van het voorgrondonderwerp is een belangrijk probleem voor de filmindustrie en de visuele effecten gemeenschap. Deze taak omvat het synthetiseren van een achtergrond die aansluit bij de beweging en het uiterlijk van het voorgrondonderwerp, terwijl het ook voldoet aan de creatieve intentie van de kunstenaar. Wij introduceren ActAnywhere, een generatief model dat dit proces automatiseert, wat traditioneel veel tijdrovend handwerk vereist. Ons model maakt gebruik van de kracht van grootschalige videodiffusiemodellen en is specifiek afgestemd op deze taak. ActAnywhere neemt een reeks segmentaties van het voorgrondonderwerp als invoer en een afbeelding die de gewenste scène beschrijft als conditie, om een coherente video te produceren met realistische interacties tussen voorgrond en achtergrond, terwijl het voldoet aan het conditiekader. We trainen ons model op een grootschalige dataset van video's met mens-scène interacties. Uitgebreide evaluaties tonen de superieure prestaties van ons model aan, dat significant beter presteert dan de basislijnen. Bovendien laten we zien dat ActAnywhere generaliseert naar diverse out-of-distribution voorbeelden, inclusief niet-menselijke onderwerpen. Bezoek onze projectwebpagina op https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an
important problem for the movie industry and visual effects community. This
task involves synthesizing background that aligns with the motion and
appearance of the foreground subject, while also complies with the artist's
creative intention. We introduce ActAnywhere, a generative model that automates
this process which traditionally requires tedious manual efforts. Our model
leverages the power of large-scale video diffusion models, and is specifically
tailored for this task. ActAnywhere takes a sequence of foreground subject
segmentation as input and an image that describes the desired scene as
condition, to produce a coherent video with realistic foreground-background
interactions while adhering to the condition frame. We train our model on a
large-scale dataset of human-scene interaction videos. Extensive evaluations
demonstrate the superior performance of our model, significantly outperforming
baselines. Moreover, we show that ActAnywhere generalizes to diverse
out-of-distribution samples, including non-human subjects. Please visit our
project webpage at https://actanywhere.github.io.