ChatPaper.aiChatPaper

MIMO: Синтез видео с контролируемыми характерами с пространственным декомпозированным моделированием

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

September 24, 2024
Авторы: Yifang Men, Yuan Yao, Miaomiao Cui, Liefeng Bo
cs.AI

Аннотация

Синтез видео с персонажами направлен на создание реалистичных видеороликов анимируемых персонажей в живописных сценах. Как фундаментальная проблема в сообществе компьютерного зрения и графики, работы в 3D обычно требуют многократных захватов для обучения на каждом случае, что серьезно ограничивает их применимость для моделирования произвольных персонажей в короткие сроки. Недавние 2D методы преодолевают это ограничение с помощью предварительно обученных моделей диффузии, но они испытывают затруднения с общностью поз и взаимодействиями сцен. В этой связи мы предлагаем MIMO, новую структуру, которая может не только синтезировать видеоролики с персонажами с управляемыми атрибутами (т.е. персонаж, движение и сцена), предоставленными простыми пользовательскими вводами, но также одновременно достигать продвинутой масштабируемости для произвольных персонажей, общности для новых 3D движений и применимости к интерактивным сценам реального мира в единой структуре. Основная идея заключается в кодировании 2D видео в компактные пространственные коды, учитывая врожденную 3D природу встречи видео. Конкретно, мы преобразуем пиксели кадра 2D в 3D с использованием монокулярных оценщиков глубины и декомпозируем видеоролик на три пространственных компонента (т.е. основной человек, подлежащая сцена и плавающая заслонка) в иерархических слоях на основе 3D глубины. Эти компоненты дополнительно кодируются в канонический идентификационный код, структурированный код движения и полный код сцены, которые используются в качестве сигналов управления процессом синтеза. Дизайн пространственного декомпозированного моделирования обеспечивает гибкий пользовательский контроль, сложное выражение движения, а также синтез, осознающий 3D для взаимодействия со сценами. Экспериментальные результаты демонстрируют эффективность и надежность предложенного метода.
English
Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

Summary

AI-Generated Summary

PDF342November 16, 2024