MoZoo: Entfesselung der Videodiffusionskraft in der Simulation von Tierfell und Muskeln

Zusammenfassung

Die Erzeugung von Tieranimationen in Filmqualität erfordert die präzise Modellierung von Muskel- und Fellbewegungen, ein Prozess, der in traditionellen Produktionsabläufen sowohl arbeitsintensiv als auch rechenaufwändig bleibt. Während generative Diffusionsmodelle in verschiedenen künstlerischen Arbeitsabläufen vielversprechend sind, bleibt ihre Fähigkeit zur hochtreuen Tiersimulation weitgehend ungenutzt. Wir stellen MoZoo vor, einen generativen Bewegungslöser, der auf konventionelle Verfeinerungen verzichtet, um aus groben Netzen unter multimodaler Führung hochtreue Tieraufnahmen zu synthetisieren. Wir schlagen den Rollenbewussten RoPE (RAR-RoPE) vor, der eine rollenbasierte Indexumordnung verwendet, um eine Synchronisation der Bewegung zu gewährleisten, während Referenzinformationen durch feste zeitliche Versätze entkoppelt werden. Ergänzend dazu teilt die Asymmetrische Entkoppelte Aufmerksamkeit die latente Sequenz auf, um einen unidirektionalen Informationsfluss zu erzwingen, wodurch Merkmalstörungen effektiv verhindert und die Recheneffizienz verbessert werden. Um die Knappheit an hochwertigen Trainingsdaten zu beheben, führen wir MoZoo-Data ein, eine Synthese-zu-Real-Pipeline, die eine Rendering-Engine und einen inversen Abbildungsansatz nutzt, um einen groß angelegten Datensatz gepaarter Sequenzen zu erstellen. Darüber hinaus schaffen wir MoZooBench, einen umfassenden Benchmark mit 120 Netz-Video-Paaren. Experimentelle Ergebnisse zeigen, dass MoZoo über verschiedene Tierkörper und Anordnungen hinweg hochtreue Fellsimulationen erzielt und dabei eine überlegene zeitliche und strukturelle Konsistenz bewahrt.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.