4DEquine: Separando Movimento e Aparência para Reconstrução 4D Equina a Partir de Vídeo Monocular

Resumo

A reconstrução 4D de equídeos (por exemplo, cavalos) a partir de vídeo monocular é importante para o bem-estar animal. Os métodos anteriores dominantes de reconstrução 4D animal requerem otimização conjunta do movimento e da aparência ao longo de todo um vídeo, o que é demorado e sensível a observações incompletas. Neste trabalho, propomos uma nova estrutura chamada 4DEquine, desacoplando o problema de reconstrução 4D em dois subproblemas: reconstrução dinâmica do movimento e reconstrução estática da aparência. Para o movimento, introduzimos um transformador espaço-temporal simples, porém eficaz, com uma fase de pós-otimização para regredir sequências suaves e alinhadas por pixel de pose e forma a partir do vídeo. Para a aparência, projetamos uma nova rede de avanço (feed-forward) que reconstrói um avatar animável de Gaussianas 3D de alta fidelidade a partir de uma única imagem. Para auxiliar o treinamento, criamos um grande conjunto de dados sintético de movimento, o VarenPoser, que apresenta movimentos superficiais de alta qualidade e trajetórias de câmera diversas, bem como um conjunto de dados sintético de aparência, o VarenTex, composto por imagens realistas de múltiplas vistas geradas por difusão multi-vista. Apesar de treinado apenas em conjuntos de dados sintéticos, o 4DEquine alcança desempenho de ponta nos conjuntos de dados do mundo real APT36K e AiM, demonstrando a superioridade do 4DEquine e dos nossos novos conjuntos de dados para a reconstrução tanto da geometria quanto da aparência. Estudos abrangentes de ablação validam a eficácia tanto da rede de reconstrução de movimento quanto da de aparência. Página do projeto: https://luoxue-star.github.io/4DEquine_Project_Page/.

English

4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.

4DEquine: Separando Movimento e Aparência para Reconstrução 4D Equina a Partir de Vídeo Monocular

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Resumo

Support