4DEquine: Разделение движения и внешнего вида для 4D-реконструкции лошадей по моноскопическому видео

Аннотация

Четырехмерная реконструкция семейства лошадиных (например, лошадей) по монокулярному видео важна для изучения их благополучия. Предыдущие основные методы 4D-реконструкции животных требовали совместной оптимизации движения и внешнего вида по всему видео, что является трудоемким и чувствительным к неполноте наблюдений. В данной работе мы предлагаем новую структуру под названием 4DEquine, разделяющую задачу 4D-реконструкции на две подзадачи: реконструкцию динамического движения и реконструкцию статического внешнего вида. Для движения мы представляем простой, но эффективный пространственно-временной трансформер с этапом последующей оптимизации для регрессии сглаженных и выровненных по пикселям последовательностей позы и формы из видео. Для внешнего вида мы разрабатываем новую прямую сеть, которая реконструирует высокодетализированного анимируемого аватара на основе 3D-гаусссиан из всего одного изображения. Для помощи в обучении мы создали крупный синтетический набор данных о движении, VarenPoser, который включает высококачественные поверхностные движения и разнообразные траектории камеры, а также синтетический набор данных о внешнем виде, VarenTex, состоящий из реалистичных многовидовых изображений, сгенерированных с помощью многовидовой диффузии. Обучаясь исключительно на синтетических наборах данных, 4DEquine демонстрирует наилучшие результаты на реальных наборах данных APT36K и AiM, что подтверждает превосходство 4DEquine и наших новых наборов данных как для реконструкции геометрии, так и для реконструкции внешнего вида. Всесторонние абляционные исследования подтверждают эффективность как сети реконструкции движения, так и сети реконструкции внешнего вида. Страница проекта: https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine: Разделение движения и внешнего вида для 4D-реконструкции лошадей по моноскопическому видео

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Аннотация

Support