MoZoo: De kracht van Video Diffusie ontketenen in de simulatie van dierlijke vacht en spieren

Samenvatting

Het creëren van diereneffecten van bioscoopkwaliteit vereist de nauwkeurige modellering van spier- en vachtdynamica, een proces dat zowel arbeidsintensief als rekenkundig duur blijft binnen traditionele productieworkflows. Hoewel generatieve diffusiemodellen veelbelovend zijn gebleken in diverse artistieke workflows, blijft hun vermogen tot hoogwaardige dierensimulatie grotendeels onbenut. Wij presenteren MoZoo, een generatieve dynamica-oplosser die conventionele verfijning omzeilt en hoogwaardige dierenvideo's synthetiseert uit grove meshes onder multimodale sturing. Wij stellen Role-Aware RoPE (RAR-RoPE) voor, dat gebruikmaakt van rolgebaseerde indexhertoewijzing om bewegingsalignering te synchroniseren terwijl referentie-informatie wordt ontkoppeld via vaste temporele verschuivingen. Als aanvulling hierop partitioneert Asymmetrische Ontkoppelde Aandacht de latente sequentie om een unidirectionele informatiestroom af te dwingen, wat effectief feature-interferentie voorkomt en de rekenkundige efficiëntie verbetert. Om het gebrek aan hoogwaardige trainingsdata aan te pakken, introduceren wij MoZoo-Data, een synthetisch-naar-realistisch pijplijn dat een renderengine en een inverse-mappingbenadering gebruikt om een grootschalige dataset van gepaarde sequenties te construeren. Daarnaast vestigen wij MoZooBench, een uitgebreide benchmark met 120 mesh-videoparen. Experimentele resultaten tonen aan dat MoZoo hoogwaardige vachtsimulatie bereikt over uiteenlopende dierenskeletten en -indelingen, met behoud van superieure temporele en structurele consistentie.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.