MoZoo : Libérer la puissance de la diffusion vidéo dans la simulation de la fourrure et des muscles animaux

Résumé

La création d'effets animaliers de qualité cinématographique nécessite une modélisation précise de la dynamique des muscles et de la fourrure, un processus qui reste à la fois exigeant en main-d'œuvre et coûteux en calcul au sein des pipelines de production traditionnels. Bien que les modèles génératifs de diffusion aient montré un potentiel dans divers flux de travail artistiques, leur capacité à simuler des animaux avec une haute fidélité reste largement inexploitée. Nous présentons MoZoo, un solveur de dynamique générative qui contourne les raffinement conventionnels pour synthétiser des vidéos animalières haute-fidélité à partir de maillages grossiers sous guidage multimodal. Nous proposons le RoPE conscient du rôle (RAR-RoPE), qui utilise un réindexage basé sur les rôles pour synchroniser l'alignement des mouvements tout en découplant les informations de référence via des décalages temporels fixes. En complément, l'attention découplée asymétrique partitionne la séquence latente pour imposer un flux d'information unidirectionnel, empêchant efficacement l'interférence des caractéristiques et améliorant l'efficacité computationnelle. Pour remédier à la rareté des données d'entraînement de haute qualité, nous introduisons MoZoo-Data, un pipeline synthétique-vers-réel qui exploite un moteur de rendu et une approche de mappage inverse pour construire un jeu de données à grande échelle de séquences appariées. De plus, nous établissons MoZooBench, un benchmark complet avec 120 paires maillage-vidéo. Les résultats expérimentaux montrent que MoZoo atteint une simulation de fourrure haute-fidélité pour divers squelettes et agencements animaliers, en préservant une cohérence temporelle et structurelle supérieure.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.