PhysCtrl: Física Generativa para la Creación de Videos Controlables y Basados en Física

Resumen

Los modelos existentes de generación de videos sobresalen en la producción de videos fotorrealísticos a partir de texto o imágenes, pero a menudo carecen de plausibilidad física y controlabilidad 3D. Para superar estas limitaciones, presentamos PhysCtrl, un marco novedoso para la generación de videos a partir de imágenes basada en física, con parámetros físicos y control de fuerzas. En su núcleo se encuentra una red generativa de física que aprende la distribución de dinámicas físicas en cuatro materiales (elástico, arena, plastilina y rígido) mediante un modelo de difusión condicionado por parámetros físicos y fuerzas aplicadas. Representamos las dinámicas físicas como trayectorias de puntos 3D y entrenamos en un conjunto de datos sintéticos a gran escala de 550K animaciones generadas por simuladores físicos. Mejoramos el modelo de difusión con un nuevo bloque de atención espacio-temporal que emula interacciones de partículas e incorpora restricciones basadas en física durante el entrenamiento para garantizar la plausibilidad física. Los experimentos muestran que PhysCtrl genera trayectorias de movimiento realistas y fundamentadas en la física que, al utilizarse para impulsar modelos de imagen a video, producen videos de alta fidelidad y controlables que superan a los métodos existentes tanto en calidad visual como en plausibilidad física. Página del proyecto: https://cwchenwang.github.io/physctrl

English

Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl

PhysCtrl: Física Generativa para la Creación de Videos Controlables y Basados en Física

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

Resumen

Support