ChatPaper.aiChatPaper

SyncMV4D: Синхронизированное многовидовое совместное диффузионное моделирование внешнего вида и движения для синтеза взаимодействия рук с объектами

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

November 24, 2025
Авторы: Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu
cs.AI

Аннотация

Генерация взаимодействия руки и объекта (HOI) играет ключевую роль в развитии приложений в анимации и робототехнике. Современные видеоориентированные методы в основном являются одноракурсными, что препятствует полноценному восприятию 3D-геометрии и часто приводит к геометрическим искажениям или неестественным паттернам движения. Хотя 3D HOI-подходы способны генерировать динамически правдоподобные движения, их зависимость от высококачественных 3D-данных, снятых в контролируемых лабораторных условиях, серьезно ограничивает их обобщающую способность для реальных сценариев. Чтобы преодолеть эти ограничения, мы представляем SyncMV4D — первую модель, которая совместно генерирует синхронизированные многовидовые HOI-видео и 4D-движения за счет объединения визуальных prior'ов, динамики движения и многовидовой геометрии. Наша framework включает два ключевых нововведения: (1) модель совместной диффузии для нескольких ракурсов (MJD), которая совместно генерирует HOI-видео и промежуточные движения, и (2) модуль согласования диффузионных точек (DPA), который уточняет грубое промежуточное движение в глобально выровненные метрические 4D-треки точек. Для тесной связи 2D-внешнего вида с 4D-динамикой мы устанавливаем замкнутый цикл взаимного усиления. В процессе денойзинга диффузии сгенерированное видео обусловливает уточнение 4D-движения, в то время как выровненные 4D-треки точек репроецируются для управления совместной генерацией на следующем шаге. Экспериментально наш метод демонстрирует превосходство над современными аналогами по визуальному реализму, правдоподобию движений и многовидовой согласованности.
English
Hand-Object Interaction (HOI) generation plays a critical role in advancing applications across animation and robotics. Current video-based methods are predominantly single-view, which impedes comprehensive 3D geometry perception and often results in geometric distortions or unrealistic motion patterns. While 3D HOI approaches can generate dynamically plausible motions, their dependence on high-quality 3D data captured in controlled laboratory settings severely limits their generalization to real-world scenarios. To overcome these limitations, we introduce SyncMV4D, the first model that jointly generates synchronized multi-view HOI videos and 4D motions by unifying visual prior, motion dynamics, and multi-view geometry. Our framework features two core innovations: (1) a Multi-view Joint Diffusion (MJD) model that co-generates HOI videos and intermediate motions, and (2) a Diffusion Points Aligner (DPA) that refines the coarse intermediate motion into globally aligned 4D metric point tracks. To tightly couple 2D appearance with 4D dynamics, we establish a closed-loop, mutually enhancing cycle. During the diffusion denoising process, the generated video conditions the refinement of the 4D motion, while the aligned 4D point tracks are reprojected to guide next-step joint generation. Experimentally, our method demonstrates superior performance to state-of-the-art alternatives in visual realism, motion plausibility, and multi-view consistency.
PDF23February 7, 2026