4DEquine: Separazione di Movimento e Aspetto per la Ricostruzione 4D Equina da Video Monoculare

Abstract

La ricostruzione 4D di equidi (ad esempio, cavalli) da video monoculare è importante per il benessere animale. I precedenti metodi principali di ricostruzione 4D animale richiedevano un'ottimizzazione congiunta del movimento e dell'aspetto su un intero video, un processo che richiede tempo ed è sensibile a osservazioni incomplete. In questo lavoro, proponiamo una nuova framework chiamata 4DEquine, che scompone il problema della ricostruzione 4D in due sottoproblemi: ricostruzione del movimento dinamico e ricostruzione dell'aspetto statico. Per il movimento, introduciamo un trasformatore spaziotemporale semplice ma efficace, con una fase di post-ottimizzazione, per stimare sequenze di pose e forme fluide e allineate a livello di pixel dal video. Per l'aspetto, progettiamo una nuova rete feed-forward che ricostruisce un avatar 3D in Gaussiani ad alta fedeltà e animabile partendo da una singola immagine. Per supportare l'addestramento, abbiamo creato un ampio dataset sintetico di movimento, VarenPoser, che presenta movimenti superficiali di alta qualità e traiettorie di telecamera diversificate, nonché un dataset sintetico per l'aspetto, VarenTex, composto da immagini realistiche multi-vista generate tramite diffusione multi-vista. Sebbene addestrata solo su dataset sintetici, 4DEquine raggiunge prestazioni allo stato dell'arte sui dataset real-world APT36K e AiM, dimostrando la superiorità di 4DEquine e dei nostri nuovi dataset sia per la ricostruzione geometrica che per quella dell'aspetto. Studi di ablazione completi convalidano l'efficacia sia della rete di ricostruzione del movimento che di quella dell'aspetto. Pagina del progetto: https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine: Separazione di Movimento e Aspetto per la Ricostruzione 4D Equina da Video Monoculare

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Abstract

Support