ChatPaper.aiChatPaper

PhysCtrl: Генеративная физика для управляемого и физически обоснованного создания видео

PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

September 24, 2025
Авторы: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu
cs.AI

Аннотация

Существующие модели генерации видео преуспевают в создании фотореалистичных видеороликов на основе текста или изображений, но часто страдают от недостатка физической правдоподобности и трехмерной управляемости. Чтобы преодолеть эти ограничения, мы представляем PhysCtrl — новый фреймворк для генерации видео на основе изображений с учетом физических параметров и управления силами. В его основе лежит генеративная физическая сеть, которая изучает распределение физической динамики для четырех материалов (упругих, песка, пластилина и твердых) с помощью диффузионной модели, учитывающей физические параметры и приложенные силы. Мы представляем физическую динамику как траектории трехмерных точек и обучаем модель на крупномасштабном синтетическом наборе данных из 550 тысяч анимаций, созданных физическими симуляторами. Мы улучшаем диффузионную модель с помощью нового пространственно-временного блока внимания, который имитирует взаимодействие частиц и включает физические ограничения в процессе обучения для обеспечения физической правдоподобности. Эксперименты показывают, что PhysCtrl генерирует реалистичные, физически обоснованные траектории движения, которые, при использовании для управления моделями генерации видео, создают высококачественные, управляемые видеоролики, превосходящие существующие методы как по визуальному качеству, так и по физической правдоподобности. Страница проекта: https://cwchenwang.github.io/physctrl.
English
Existing video generation models excel at producing photo-realistic videos from text or images, but often lack physical plausibility and 3D controllability. To overcome these limitations, we introduce PhysCtrl, a novel framework for physics-grounded image-to-video generation with physical parameters and force control. At its core is a generative physics network that learns the distribution of physical dynamics across four materials (elastic, sand, plasticine, and rigid) via a diffusion model conditioned on physics parameters and applied forces. We represent physical dynamics as 3D point trajectories and train on a large-scale synthetic dataset of 550K animations generated by physics simulators. We enhance the diffusion model with a novel spatiotemporal attention block that emulates particle interactions and incorporates physics-based constraints during training to enforce physical plausibility. Experiments show that PhysCtrl generates realistic, physics-grounded motion trajectories which, when used to drive image-to-video models, yield high-fidelity, controllable videos that outperform existing methods in both visual quality and physical plausibility. Project Page: https://cwchenwang.github.io/physctrl
PDF92September 25, 2025