MoZoo: Раскрывая мощь видеодиффузии в симуляции шерсти и мышц животных
MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation
April 8, 2026
Авторы: Dongxia Liu, Jie Ma, Xiaochen Yang, Jiancheng Zhang, Bin Xia, Zhehan Kan, Nisha Huang, Jun Liang, Wenming Yang, Jin Li
cs.AI
Аннотация
Создание анималистических эффектов кинематографического качества требует точного моделирования динамики мышц и шерсти — процесса, который остается трудоемким и вычислительно затратным в рамках традиционных производственных процессов. Хотя генеративные диффузионные модели продемонстрировали перспективность в различных художественных процессах, их потенциал для высокоточной симуляции животных остается в значительной степени неиспользованным. Мы представляем MoZoo — генеративный решатель динамики, который обходит традиционную доработку, чтобы синтезировать высококачественные видео с животными на основе грубых сеток под мультимодальным управлением. Мы предлагаем Role-Aware RoPE (RAR-RoPE), который использует переиндексацию на основе ролей для синхронизации выравнивания движения, одновременно разделяя эталонную информацию с помощью фиксированных временных сдвигов. В дополнение к этому, Asymmetric Decoupled Attention разделяет скрытую последовательность, чтобы обеспечить однонаправленный поток информации, что эффективно предотвращает интерференцию признаков и повышает вычислительную эффективность. Для решения проблемы нехватки высококачественных обучающих данных мы представляем MoZoo-Data — конвейер «от синтеза к реальности», который использует механизм рендеринга и подход обратного отображения для создания крупномасштабного набора данных парных последовательностей. Кроме того, мы создаем MoZooBench — всесторонний бенчмарк, содержащий 120 пар сеток и видео. Результаты экспериментов демонстрируют, что MoZoo обеспечивает высококачественную симуляцию шерсти на различных скелетах и расположениях животных, сохраняя превосходную временную и структурную согласованность.
English
The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.