MoZoo: Liberando el poder de la difusión de video en la simulación de pelaje y músculos de animales

Resumen

La creación de efectos animales de calidad cinematográfica requiere el modelado preciso de la dinámica de músculos y pelaje, un proceso que sigue siendo tanto laborioso como computacionalmente costoso en los flujos de trabajo tradicionales de producción. Si bien los modelos generativos de difusión han mostrado potencial en diversos flujos de trabajo artísticos, su capacidad para la simulación de animales de alta fidelidad sigue estando en gran medida sin explotar. Presentamos MoZoo, un solucionador de dinámica generativa que evita el refinamiento convencional para sintetizar videos de animales de alta fidelidad a partir de mallas gruesas bajo guía multimodal. Proponemos RoPE consciente del rol (RAR-RoPE), que emplea un re-mapeo de índices basado en roles para sincronizar la alineación del movimiento mientras desacopla la información de referencia mediante desplazamientos temporales fijos. Como complemento, la Atención Desacoplada Asimétrica particiona la secuencia latente para imponer un flujo de información unidireccional, previniendo eficazmente la interferencia de características y mejorando la eficiencia computacional. Para abordar la escasez de datos de entrenamiento de alta calidad, introducimos MoZoo-Data, un pipeline sintético-real que aprovecha un motor de renderizado y un enfoque de mapeo inverso para construir un conjunto de datos a gran escala de secuencias emparejadas. Además, establecemos MoZooBench, un punto de referencia integral con 120 pares malla-video. Los resultados experimentales demuestran que MoZoo logra una simulación de pelaje de alta fidelidad en diversos esqueletos y disposiciones animales, preservando una consistencia temporal y estructural superior.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.