4DEquine: Ontrafeling van Beweging en Uiterlijk voor 4D Reconstructie van Paarden uit Monoculaire Video's
4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
March 10, 2026
Auteurs: Jin Lyu, Liang An, Pujin Cheng, Yebin Liu, Xiaoying Tang
cs.AI
Samenvatting
4D-reconstructie van de paardenfamilie (bijvoorbeeld paarden) uit monocular video is belangrijk voor dierenwelzijn. Eerdere mainstream 4D-dierenreconstructiemethoden vereisen een gezamenlijke optimalisatie van beweging en uiterlijk over een hele video, wat tijdrovend is en gevoelig voor incomplete observatie. In dit werk stellen we een nieuw raamwerk voor, genaamd 4DEquine, door het 4D-reconstructieprobleem te ontwarren in twee deelproblemen: dynamische bewegingsreconstructie en statische uiterlijkreconstructie. Voor beweging introduceren we een eenvoudige maar effectieve spatio-temporele transformer met een post-optimalisatiefase om vloeiende en pixel-uitgelijnde pose- en vormsequenties uit video te regresseren. Voor uiterlijk ontwerpen we een nieuw feed-forward netwerk dat een hoogwaardige, animeerbare 3D Gaussian-avatar reconstrueert vanaf slechts één enkele afbeelding. Ter ondersteuning van de training creëren we een grootschalige synthetische bewegingdataset, VarenPoser, met hoogwaardige oppervlaktebewegingen en diverse cameratrajecten, evenals een synthetische uiterlijkdataset, VarenTex, bestaande uit realistische multi-view beelden gegenereerd via multi-view diffusie. Hoewel uitsluitend getraind op synthetische datasets, behaalt 4DEquine state-of-the-art prestaties op real-world APT36K- en AiM-datasets, wat de superioriteit aantoont van 4DEquine en onze nieuwe datasets voor zowel geometrie- als uiterlijkreconstructie. Uitgebreide ablatiestudies valideren de effectiviteit van zowel het bewegings- als het uiterlijkreconstructienetwerk. Projectpagina: https://luoxue-star.github.io/4DEquine_Project_Page/.
English
4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.