MoZoo: Desbloqueando o poder da difusão de vídeo na simulação de pelo e músculos de animais

Resumo

A criação de efeitos animais com qualidade cinematográfica exige a modelagem precisa da dinâmica de músculos e pelo, um processo que permanece tanto trabalhoso quanto computacionalmente caro nos fluxos de produção tradicionais. Embora modelos generativos de difusão tenham demonstrado potencial em diversos fluxos de trabalho artísticos, sua capacidade para simulação animal de alta fidelidade permanece em grande parte inexplorada. Apresentamos o MoZoo, um solucionador generativo de dinâmica que contorna o refinamento convencional para sintetizar vídeos animais de alta fidelidade a partir de malhas grossas sob orientação multimodal. Propomos o RoPE Ciente de Papéis (RAR-RoPE), que emprega um remapeamento de índices baseado em papéis para sincronizar o alinhamento do movimento, ao mesmo tempo que desacopla as informações de referência por meio de deslocamentos temporais fixos. Complementando isso, a Atenção Assimétrica Desacoplada particiona a sequência latente para impor um fluxo de informação unidirecional, prevenindo efetivamente a interferência de características e melhorando a eficiência computacional. Para lidar com a escassez de dados de treinamento de alta qualidade, introduzimos o MoZoo-Data, uma pipeline sintético-para-real que utiliza um motor de renderização e uma abordagem de mapeamento inverso para construir um conjunto de dados em larga escala de sequências pareadas. Além disso, estabelecemos o MoZooBench, um benchmark abrangente com 120 pares de malha-vídeo. Resultados experimentais demonstram que o MoZoo alcança simulação de pelo de alta fidelidade em diversos esqueletos e layouts animais, preservando consistência temporal e estrutural superior.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.