ChatPaper.aiChatPaper

Движение 3-к-4: 3D-реконструкция движения для 4D-синтеза

Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

January 20, 2026
Авторы: Hongyuan Chen, Xingyu Chen, Youjia Zhang, Zexiang Xu, Anpei Chen
cs.AI

Аннотация

Мы представляем Motion 3-to-4 — прямую (feed-forward) систему для синтеза высококачественных 4D динамических объектов из одного монокулярного видео и опциональной эталонной 3D сетки. Несмотря на значительный прогресс в генерации 2D, видео и 3D контента, синтез 4D остается сложной задачей из-за ограниченности обучающих данных и присущей неоднозначности восстановления геометрии и движения из монокулярного представления. Motion 3-to-4 решает эти проблемы, разлагая 4D синтез на генерацию статической 3D формы и реконструкцию движения. Используя каноническую эталонную сетку, наша модель изучает компактное латентное представление движения и предсказывает траектории вершин для каждого кадра, чтобы восстановить полную, временно согласованную геометрию. Масштабируемый покадровый трансформер дополнительно обеспечивает устойчивость к различной длине последовательностей. Оценки как на стандартных бенчмарках, так и на новом наборе данных с точной эталонной геометрией показывают, что Motion 3-to-4 превосходит предыдущие работы по точности и пространственной согласованности. Страница проекта доступна по адресу https://motion3-to-4.github.io/.
English
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
PDF01January 23, 2026