ChatPaper.aiChatPaper

ActAnywhere : Génération de fond vidéo consciente du sujet

ActAnywhere: Subject-Aware Video Background Generation

January 19, 2024
Auteurs: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI

Résumé

La génération d'arrière-plans vidéo adaptés au mouvement du sujet au premier plan constitue un problème important pour l'industrie cinématographique et la communauté des effets visuels. Cette tâche implique la synthèse d'un arrière-plan qui s'aligne sur le mouvement et l'apparence du sujet au premier plan, tout en respectant l'intention créative de l'artiste. Nous présentons ActAnywhere, un modèle génératif qui automatise ce processus traditionnellement laborieux et manuel. Notre modèle tire parti de la puissance des modèles de diffusion vidéo à grande échelle et est spécifiquement conçu pour cette tâche. ActAnywhere prend en entrée une séquence de segmentation du sujet au premier plan ainsi qu'une image décrivant la scène souhaitée comme condition, pour produire une vidéo cohérente avec des interactions réalistes entre le premier plan et l'arrière-plan, tout en respectant l'image de condition. Nous avons entraîné notre modèle sur un ensemble de données à grande échelle de vidéos d'interaction humain-scène. Des évaluations approfondies démontrent la performance supérieure de notre modèle, surpassant significativement les méthodes de référence. De plus, nous montrons qu'ActAnywhere généralise bien à des échantillons divers hors distribution, y compris des sujets non humains. Veuillez visiter notre page web du projet à l'adresse https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
PDF132December 15, 2024