DynaVid: Обучение генерации высокодинамичных видео с использованием синтетических данных о движении

Аннотация

Несмотря на недавний прогресс, видео-диффузионные модели по-прежнему испытывают трудности с синтезом реалистичных видеороликов, включающих высокодинамичные движения или требующих тонкого управления движением. Ключевое ограничение заключается в недостатке таких примеров в commonly используемых обучающих наборах данных. Для решения этой проблемы мы представляем DynaVid — фреймворк для синтеза видео, который использует синтетические данные о движении при обучении, представленные в виде оптического потока и визуализированные с помощью графических конвейеров. Этот подход предлагает два ключевых преимущества. Во-первых, синтетическое движение предоставляет разнообразные паттерны движения и точные управляющие сигналы, которые сложно получить из реальных данных. Во-вторых, в отличие от визуализированных видео с искусственным внешним видом, визуализированный оптический поток кодирует только движение и отделен от внешнего вида, что предотвращает воспроизведение моделями неестественного вида синтетических видео. Основываясь на этой идее, DynaVid использует двухэтапную framework генерации: сначала генератор движения синтезирует движение, а затем генератор видео, управляемый движением, создает кадры видео на основе этого движения. Такая разделенная формулировка позволяет модели изучать динамические паттерны движения из синтетических данных, сохраняя при этом визуальный реализм реальных видео. Мы проверяем наш фреймворк на двух сложных сценариях — генерации энергичных человеческих движений и управлении экстремальным движением камеры, где существующие наборы данных особенно ограничены. Многочисленные эксперименты демонстрируют, что DynaVid повышает реалистичность и управляемость при генерации динамического движения и контроле движения камеры.

English

Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.

DynaVid: Обучение генерации высокодинамичных видео с использованием синтетических данных о движении

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

Аннотация

Support