ChatPaper.aiChatPaper

ActAnywhere: Subjektbewusste Videohintergrundgenerierung

ActAnywhere: Subject-Aware Video Background Generation

January 19, 2024
Autoren: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI

Zusammenfassung

Die Erzeugung von Videohintergründen, die sich an die Bewegung des Vordergrundsubjekts anpassen, ist ein wichtiges Problem für die Filmindustrie und die Community für visuelle Effekte. Diese Aufgabe umfasst die Synthese von Hintergründen, die mit der Bewegung und dem Erscheinungsbild des Vordergrundsubjekts übereinstimmen und gleichzeitig der kreativen Absicht des Künstlers entsprechen. Wir stellen ActAnywhere vor, ein generatives Modell, das diesen Prozess automatisiert, der traditionell mühsame manuelle Arbeit erfordert. Unser Modell nutzt die Leistungsfähigkeit groß angelegter Video-Diffusionsmodelle und ist speziell für diese Aufgabe zugeschnitten. ActAnywhere nimmt eine Sequenz von Vordergrundsubjekt-Segmentierungen als Eingabe und ein Bild, das die gewünschte Szene beschreibt, als Bedingung, um ein kohärentes Video mit realistischen Vordergrund-Hintergrund-Interaktionen zu erzeugen, das gleichzeitig dem Bedingungsrahmen entspricht. Wir trainieren unser Modell auf einem groß angelegten Datensatz von Videos zur Mensch-Szene-Interaktion. Umfangreiche Auswertungen demonstrieren die überlegene Leistung unseres Modells, das die Vergleichsbaselines deutlich übertrifft. Darüber hinaus zeigen wir, dass ActAnywhere auf diverse Out-of-Distribution-Proben verallgemeinert, einschließlich nicht-menschlicher Subjekte. Bitte besuchen Sie unsere Projektwebseite unter https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
PDF132December 15, 2024