Воссоздание любого: семантический перенос движения видео с использованием инверсии движения-текста
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion
August 1, 2024
Авторы: Manuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber
cs.AI
Аннотация
В последние годы наблюдается огромное улучшение качества подходов к генерации и редактированию видео. В то время как несколько техник сосредотачиваются на редактировании внешнего вида, мало из них затрагивают движение. Существующие подходы, использующие текст, траектории или ограничивающие рамки, ограничены простыми движениями, поэтому мы определяем движения с помощью одного видеоролика в качестве эталонного для движения. Мы также предлагаем использовать предварительно обученную модель изображение-видео вместо модели текст-видео. Этот подход позволяет сохранить точный внешний вид и позицию целевого объекта или сцены, а также помогает разделять внешний вид и движение. Наш метод, названный инверсией движения-текста, основан на нашем наблюдении, что модели изображение-видео извлекают внешний вид в основном из (латентного) входа изображения, в то время как внедренное текстовое/изображенческое представление через кросс-внимание в основном контролирует движение. Мы представляем движение с помощью токенов текстового/изображенческого представления. Работая с увеличенным движением-текстовым представлением, содержащим несколько токенов текстового/изображенческого представления на каждый кадр, мы достигаем высокой временной детализации движения. После оптимизации на эталонном видео для движения, это представление можно применить к различным целевым изображениям для генерации видео с семантически схожими движениями. Наш подход не требует пространственного выравнивания между эталонным видео для движения и целевым изображением, обобщается на различные области и может быть применен к различным задачам, таким как реактирование полного тела и лица, а также управление движением неживых объектов и камеры. Мы эмпирически демонстрируем эффективность нашего метода в задаче семантического переноса движения видео, значительно превосходя существующие методы в данном контексте.
English
Recent years have seen a tremendous improvement in the quality of video
generation and editing approaches. While several techniques focus on editing
appearance, few address motion. Current approaches using text, trajectories, or
bounding boxes are limited to simple motions, so we specify motions with a
single motion reference video instead. We further propose to use a pre-trained
image-to-video model rather than a text-to-video model. This approach allows us
to preserve the exact appearance and position of a target object or scene and
helps disentangle appearance from motion. Our method, called motion-textual
inversion, leverages our observation that image-to-video models extract
appearance mainly from the (latent) image input, while the text/image embedding
injected via cross-attention predominantly controls motion. We thus represent
motion using text/image embedding tokens. By operating on an inflated
motion-text embedding containing multiple text/image embedding tokens per
frame, we achieve a high temporal motion granularity. Once optimized on the
motion reference video, this embedding can be applied to various target images
to generate videos with semantically similar motions. Our approach does not
require spatial alignment between the motion reference video and target image,
generalizes across various domains, and can be applied to various tasks such as
full-body and face reenactment, as well as controlling the motion of inanimate
objects and the camera. We empirically demonstrate the effectiveness of our
method in the semantic video motion transfer task, significantly outperforming
existing methods in this context.Summary
AI-Generated Summary