ChatPaper.aiChatPaper

ActAnywhere: Генерация фона видео с учетом объекта

ActAnywhere: Subject-Aware Video Background Generation

January 19, 2024
Авторы: Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
cs.AI

Аннотация

Создание видеоряда, который адаптируется к движению объекта на переднем плане, является важной задачей для киноиндустрии и сообщества визуальных эффектов. Эта задача включает синтез фона, который согласуется с движением и внешним видом объекта на переднем плане, а также соответствует творческому замыслу художника. Мы представляем ActAnywhere — генеративную модель, которая автоматизирует этот процесс, традиционно требующий трудоемких ручных усилий. Наша модель использует возможности крупномасштабных моделей диффузии видео и специально адаптирована для этой задачи. ActAnywhere принимает на вход последовательность сегментации объекта на переднем плане и изображение, описывающее желаемую сцену, в качестве условия, чтобы создать согласованное видео с реалистичным взаимодействием переднего плана и фона, при этом соблюдая заданное условие. Мы обучаем нашу модель на крупномасштабном наборе данных видео, демонстрирующих взаимодействие человека с окружением. Обширные оценки показывают превосходную производительность нашей модели, значительно превосходящую базовые подходы. Более того, мы демонстрируем, что ActAnywhere обобщает на разнообразные примеры, выходящие за пределы обучающего распределения, включая нечеловеческие объекты. Посетите страницу нашего проекта по адресу https://actanywhere.github.io.
English
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
PDF132December 15, 2024