4DEquine: Entflechtung von Bewegung und Erscheinungsbild für die 4D-Rekonstruktion von Pferden aus monokularen Videos

Zusammenfassung

Die 4D-Rekonstruktion von Equiden (z.B. Pferden) aus monokularen Videos ist wichtig für das Tierwohl. Bisherige Mainstream-Methoden zur 4D-Tierrekonstruktion erforderten eine gemeinsame Optimierung von Bewegung und Erscheinungsbild über ein gesamtes Video hinweg, was zeitaufwändig und anfällig für unvollständige Beobachtungen ist. In dieser Arbeit schlagen wir einen neuartigen Rahmen namens 4DEquine vor, indem wir das 4D-Rekonstruktionsproblem in zwei Teilprobleme entkoppeln: dynamische Bewegungsrekonstruktion und statische Erscheinungsbildrekonstruktion. Für die Bewegung führen wir einen einfachen, aber effektiven räumlich-zeitlichen Transformer mit einer Nachoptimierungsphase ein, um aus dem Video glatte und pixelgenau ausgerichtete Posen- und Formsequenzen zu regressieren. Für das Erscheinungsbild entwerfen wir ein neuartiges Vorwärtsnetzwerk, das aus nur einem einzigen Bild ein hochauflösendes, animierbares 3D-Gaussian-Avatar rekonstruiert. Zur Unterstützung des Trainings erstellen wir einen großen synthetischen Bewegungsdatensatz, VarenPoser, der hochwertige Oberflächenbewegungen und diverse Kameratrajektorien umfasst, sowie einen synthetischen Erscheinungsbilddatensatz, VarenTex, der realistische Multi-View-Bilder enthält, die durch Multi-View-Diffusion erzeugt wurden. Obwohl 4DEquine ausschließlich auf synthetischen Datensätzen trainiert wurde, erzielt es state-of-the-art Ergebnisse auf den realen Datensätzen APT36K und AiM, was die Überlegenheit von 4DEquine und unseren neuen Datensätzen für sowohl die Geometrie- als auch die Erscheinungsbildrekonstruktion demonstriert. Umfassende Ablationsstudien validieren die Wirksamkeit sowohl des Bewegungs- als auch des Erscheinungsbildrekonstruktionsnetzwerks. Projektseite: https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine: Entflechtung von Bewegung und Erscheinungsbild für die 4D-Rekonstruktion von Pferden aus monokularen Videos

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Zusammenfassung

Support