4DEquine: Separación de Movimiento y Apariencia para la Reconstrucción Equina 4D a partir de Vídeo Monocular

Resumen

La reconstrucción 4D de équidos (por ejemplo, caballos) a partir de vídeo monocular es importante para el bienestar animal. Los métodos principales anteriores de reconstrucción 4D animal requieren una optimización conjunta del movimiento y la apariencia a lo largo de todo un vídeo, lo que consume mucho tiempo y es sensible a observaciones incompletas. En este trabajo, proponemos un nuevo marco denominado 4DEquine que desglosa el problema de la reconstrucción 4D en dos subproblemas: reconstrucción de movimiento dinámico y reconstrucción de apariencia estática. Para el movimiento, introducimos un transformador espacio-temporal simple pero efectivo con una etapa de post-optimización para regresar secuencias de pose y forma suaves y alineadas por píxeles a partir del vídeo. Para la apariencia, diseñamos una novedosa red de propagación hacia adelante que reconstruye un avatar de Gaussianas 3D de alta fidelidad y animable a partir de tan solo una única imagen. Para ayudar en el entrenamiento, creamos un extenso conjunto de datos de movimiento sintético, VarenPoser, que presenta movimientos superficiales de alta calidad y trayectorias de cámara diversas, así como un conjunto de datos de apariencia sintética, VarenTex, que comprende imágenes realistas multi-vista generadas mediante difusión multi-vista. Aunque se entrena únicamente con conjuntos de datos sintéticos, 4DEquine logra un rendimiento de vanguardia en los conjuntos de datos del mundo real APT36K y AiM, lo que demuestra la superioridad de 4DEquine y nuestros nuevos conjuntos de datos tanto para la reconstrucción de geometría como de apariencia. Estudios exhaustivos de ablación validan la efectividad tanto de la red de reconstrucción de movimiento como de apariencia. Página del proyecto: https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine: Separación de Movimiento y Apariencia para la Reconstrucción Equina 4D a partir de Vídeo Monocular

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Resumen

Support