ChatPaper.aiChatPaper

ShapeGen4D: На пути к генерации высококачественных 4D-форм из видеоданных

ShapeGen4D: Towards High Quality 4D Shape Generation from Videos

October 7, 2025
Авторы: Jiraphon Yenphraphai, Ashkan Mirzaei, Jianqi Chen, Jiaxu Zou, Sergey Tulyakov, Raymond A. Yeh, Peter Wonka, Chaoyang Wang
cs.AI

Аннотация

Генерация 4D-форм на основе видео направлена на восстановление изменяющейся во времени 3D-геометрии и согласованного по виду внешнего облика непосредственно из входного видео. В данной работе мы представляем нативную структуру для генерации 4D-форм из видео, которая синтезирует единое динамическое 3D-представление напрямую из видео. Наша структура включает три ключевых компонента, основанных на крупномасштабных предобученных 3D-моделях: (i) временное внимание, которое учитывает все кадры при генерации, создавая динамическое представление с временной индексацией; (ii) временно-осознанная выборка точек и 4D-латентная привязка, способствующие временной согласованности геометрии и текстуры; и (iii) совместное использование шума между кадрами для повышения временной стабильности. Наш метод точно захватывает нежесткое движение, изменения объема и даже топологические переходы без оптимизации для каждого кадра. На разнообразных видео из реального мира наш метод повышает устойчивость и перцептивную точность, а также уменьшает количество ошибок по сравнению с базовыми подходами.
English
Video-conditioned 4D shape generation aims to recover time-varying 3D geometry and view-consistent appearance directly from an input video. In this work, we introduce a native video-to-4D shape generation framework that synthesizes a single dynamic 3D representation end-to-end from the video. Our framework introduces three key components based on large-scale pre-trained 3D models: (i) a temporal attention that conditions generation on all frames while producing a time-indexed dynamic representation; (ii) a time-aware point sampling and 4D latent anchoring that promote temporally consistent geometry and texture; and (iii) noise sharing across frames to enhance temporal stability. Our method accurately captures non-rigid motion, volume changes, and even topological transitions without per-frame optimization. Across diverse in-the-wild videos, our method improves robustness and perceptual fidelity and reduces failure modes compared with the baselines.
PDF132October 8, 2025