ChatPaper.aiChatPaper

3D-осознанное неявное управление движением для видово-адаптивной генерации видео с человеком

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

February 3, 2026
Авторы: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI

Аннотация

Существующие методы управления движением человека при генерации видео обычно опираются на 2D-позы или явные 3D-параметрические модели (например, SMPL) в качестве управляющих сигналов. Однако 2D-позы жестко привязывают движение к исходной точке обзора, что исключает синтез из новых ракурсов. Явные 3D-модели, хотя и несут структурную информацию, страдают от присущих им неточностей (например, неоднозначности глубины и неточной динамики), которые, будучи использованы в качестве строгого ограничения, подавляют мощное внутреннее 3D-восприятие крупномасштабных генераторов видео. В данной работе мы пересматриваем задачу управления движением с 3D-ориентированной точки зрения, предлагая неявное, независимое от вида представление движения, которое естественным образом согласуется с пространственными априорными знаниями генератора, вместо того чтобы зависеть от внешне реконструированных ограничений. Мы представляем 3DiMo — подход, который совместно обучает кодировщик движения с предварительно обученным генератором видео для преобразования исходных кадров в компактные, независимые от ракурса токены движения, семантически внедряемые с помощью кросс-внимания. Для развития 3D-восприятия мы проводим обучение с использованием данных, богатых разнообразием ракурсов (например, видео с одним видом, несколькими видами и с движущейся камеры), заставляя модель обеспечивать согласованность движения при различных точках обзора. Дополнительно мы применяем вспомогательную геометрическую супервизию, которая использует SMPL лишь для первоначальной инициализации и постепенно ослабляется до нуля, позволяя модели перейти от внешнего 3D-руководства к обучению подлинному пониманию пространственного 3D-движения на основе данных и априорных знаний генератора. Эксперименты подтверждают, что 3DiMo точно воспроизводит заданные движения с гибким, управляемым текстом контролем камеры, значительно превосходя существующие методы как по точности передачи движения, так и по визуальному качеству.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.
PDF435February 5, 2026