MoZoo: Раскрывая мощь видеодиффузии в симуляции шерсти и мышц животных

Аннотация

Создание анималистических эффектов кинематографического качества требует точного моделирования динамики мышц и шерсти — процесса, который остается трудоемким и вычислительно затратным в рамках традиционных производственных процессов. Хотя генеративные диффузионные модели продемонстрировали перспективность в различных художественных процессах, их потенциал для высокоточной симуляции животных остается в значительной степени неиспользованным. Мы представляем MoZoo — генеративный решатель динамики, который обходит традиционную доработку, чтобы синтезировать высококачественные видео с животными на основе грубых сеток под мультимодальным управлением. Мы предлагаем Role-Aware RoPE (RAR-RoPE), который использует переиндексацию на основе ролей для синхронизации выравнивания движения, одновременно разделяя эталонную информацию с помощью фиксированных временных сдвигов. В дополнение к этому, Asymmetric Decoupled Attention разделяет скрытую последовательность, чтобы обеспечить однонаправленный поток информации, что эффективно предотвращает интерференцию признаков и повышает вычислительную эффективность. Для решения проблемы нехватки высококачественных обучающих данных мы представляем MoZoo-Data — конвейер «от синтеза к реальности», который использует механизм рендеринга и подход обратного отображения для создания крупномасштабного набора данных парных последовательностей. Кроме того, мы создаем MoZooBench — всесторонний бенчмарк, содержащий 120 пар сеток и видео. Результаты экспериментов демонстрируют, что MoZoo обеспечивает высококачественную симуляцию шерсти на различных скелетах и расположениях животных, сохраняя превосходную временную и структурную согласованность.

English

The creation of cinematic-quality animal effects necessitates the precise modeling of muscle and fur dynamics, a process that remains both labor-intensive and computationally expensive within traditional production workflows. While generative diffusion models have shown promise in diverse artistic workflows, their capacity for high-fidelity animal simulation remains largely unexploited. We present MoZoo, a generative dynamics solver that bypasses conventional refinement to synthesize high-fidelity animal videos from coarse meshes under multimodal guidance. We propose Role-Aware RoPE (RAR-RoPE) which employs role-based index remapping to synchronize motion alignment while decoupling reference information via fixed temporal offsets. Complementing this, Asymmetric Decoupled Attention partitions the latent sequence to enforce a unidirectional information flow, effectively preventing feature interference and improving computational efficiency. To address the scarcity of high-quality training data, we introduce MoZoo-Data, a synthetic-to-real pipeline that leverages a rendering engine and an inverse mapping approach to construct a large-scale dataset of paired sequences. Furthermore, we establish MoZooBench, a comprehensive benchmark with 120 mesh-video pairs. Experimental results demonstrate that MoZoo achieves high-fidelity fur simulation across diverse animal skeletons and layouts, preserving superior temporal and structural consistency.