4DEquine : Séparation du mouvement et de l'apparence pour la reconstruction équine 4D à partir d'une vidéo monoculaire

Résumé

La reconstruction 4D d'équidés (par exemple, les chevaux) à partir de vidéos monoculaires est importante pour le bien-être animal. Les méthodes traditionnelles de reconstruction 4D animale nécessitent une optimisation conjointe du mouvement et de l'apparence sur l'intégralité d'une vidéo, ce qui est chronophage et sensible aux observations incomplètes. Dans ce travail, nous proposons une nouvelle architecture appelée 4DEquine qui décompose le problème de reconstruction 4D en deux sous-problèmes : la reconstruction du mouvement dynamique et celle de l'apparence statique. Pour le mouvement, nous introduisons un transformateur spatio-temporel simple mais efficace avec une étape d'optimisation a posteriori pour estimer des séquences de pose et de forme fluides et alignées au pixel à partir de la vidéo. Pour l'apparence, nous concevons un nouveau réseau à propagation avant qui reconstruit un avatar animable en Gaussiennes 3D de haute fidélité à partir d'une seule image. Pour faciliter l'entraînement, nous créons un vaste ensemble de données de mouvement synthétique, VarenPoser, qui propose des mouvements de surface de haute qualité et des trajectoires caméra variées, ainsi qu'un ensemble de données d'apparence synthétique, VarenTex, comprenant des images multi-vues réalistes générées par diffusion multi-vues. Bien qu'entraîné uniquement sur des données synthétiques, 4DEquine obtient des performances de pointe sur les ensembles de données réels APT36K et AiM, démontrant la supériorité de notre méthode et de nos nouveaux jeux de données pour la reconstruction géométrique et d'apparence. Des études d'ablation complètes valident l'efficacité des réseaux de reconstruction du mouvement et de l'apparence. Page du projet : https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine : Séparation du mouvement et de l'apparence pour la reconstruction équine 4D à partir d'une vidéo monoculaire

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Résumé

Support