ChatPaper.aiChatPaper

ActAnywhere: Generazione di Sfondi Video Consapevole del Soggetto

ActAnywhere: Subject-Aware Video Background Generation

January 19, 2024
Autori: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI

Abstract

Generare uno sfondo video che si adatti al movimento del soggetto in primo piano è un problema importante per l'industria cinematografica e la comunità degli effetti visivi. Questo compito implica la sintesi di uno sfondo che si allinea con il movimento e l'aspetto del soggetto in primo piano, rispettando al contempo l'intenzione creativa dell'artista. Presentiamo ActAnywhere, un modello generativo che automatizza questo processo, tradizionalmente basato su sforzi manuali tediosi. Il nostro modello sfrutta la potenza dei modelli di diffusione video su larga scala ed è specificamente progettato per questo compito. ActAnywhere prende in input una sequenza di segmentazione del soggetto in primo piano e un'immagine che descrive la scena desiderata come condizione, per produrre un video coerente con interazioni realistiche tra primo piano e sfondo, rispettando il frame condizionale. Addestriamo il nostro modello su un ampio dataset di video di interazione uomo-scena. Valutazioni estensive dimostrano le prestazioni superiori del nostro modello, che supera significativamente i baseline. Inoltre, mostriamo che ActAnywhere si generalizza a campioni eterogenei fuori distribuzione, inclusi soggetti non umani. Visita la nostra pagina del progetto all'indirizzo https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
PDF132December 15, 2024