ChatPaper.aiChatPaper

PhysCtrl: 제어 가능하고 물리 기반의 비디오 생성을 위한 생성적 물리학

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

September 24, 2025
저자: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI

초록

기존의 비디오 생성 모델은 텍스트나 이미지에서 사진처럼 사실적인 비디오를 생성하는 데 뛰어나지만, 종종 물리적 타당성과 3D 제어 가능성이 부족합니다. 이러한 한계를 극복하기 위해, 우리는 물리적 매개변수와 힘 제어를 통해 물리학에 기반한 이미지-비디오 생성을 위한 새로운 프레임워크인 PhysCtrl을 소개합니다. 이 프레임워크의 핵심은 물리 매개변수와 적용된 힘에 따라 조건화된 확산 모델을 통해 네 가지 재료(탄성체, 모래, 플라스틱, 고체)에 걸친 물리적 역학의 분포를 학습하는 생성 물리 네트워크입니다. 우리는 물리적 역학을 3D 점 궤적으로 표현하고, 물리 시뮬레이터로 생성된 550K 애니메이션으로 구성된 대규모 합성 데이터셋에서 학습합니다. 우리는 확산 모델을 개선하기 위해 입자 상호작용을 모방하는 새로운 시공간적 주의 블록을 도입하고, 훈련 중 물리학 기반 제약 조건을 통합하여 물리적 타당성을 강화합니다. 실험 결과, PhysCtrl은 현실적이고 물리학에 기반한 운동 궤적을 생성하며, 이를 이미지-비디오 모델에 적용할 때 시각적 품질과 물리적 타당성 모두에서 기존 방법을 능가하는 고품질의 제어 가능한 비디오를 생성합니다. 프로젝트 페이지: https://cwchenwang.github.io/physctrl
English
Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl
PDF92September 25, 2025