ChatPaper.aiChatPaper

PhysCtrl: Física Generativa para Geração de Vídeos Controláveis e Baseados em Física

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

September 24, 2025
Autores: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI

Resumo

Os modelos existentes de geração de vídeo se destacam na produção de vídeos foto-realísticos a partir de texto ou imagens, mas frequentemente carecem de plausibilidade física e controlabilidade 3D. Para superar essas limitações, introduzimos o PhysCtrl, uma nova estrutura para geração de vídeo a partir de imagens com base em física, utilizando parâmetros físicos e controle de forças. No núcleo do PhysCtrl está uma rede generativa de física que aprende a distribuição da dinâmica física em quatro materiais (elástico, areia, plasticina e rígido) por meio de um modelo de difusão condicionado em parâmetros físicos e forças aplicadas. Representamos a dinâmica física como trajetórias de pontos 3D e treinamos em um grande conjunto de dados sintéticos de 550K animações geradas por simuladores físicos. Aprimoramos o modelo de difusão com um novo bloco de atenção espaço-temporal que emula interações entre partículas e incorpora restrições baseadas em física durante o treinamento para garantir plausibilidade física. Experimentos mostram que o PhysCtrl gera trajetórias de movimento realistas e fundamentadas em física que, ao serem usadas para dirigir modelos de geração de vídeo a partir de imagens, produzem vídeos de alta fidelidade e controláveis que superam os métodos existentes tanto em qualidade visual quanto em plausibilidade física. Página do Projeto: https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl
PDF122September 25, 2025