PhysGen: Генерация изображений в видео на основе физики твердого тела
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation
September 27, 2024
Авторы: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI
Аннотация
Мы представляем PhysGen, новый метод генерации видео изображений, который преобразует одно изображение и входное условие (например, сила и момент, приложенные к объекту на изображении) для создания реалистичного, физически правдоподобного и временно последовательного видео. Наш ключевой принцип заключается в интеграции модельно-основанного физического моделирования с процессом генерации видео на основе данных, обеспечивая правдоподобную динамику в пространстве изображений. В центре нашей системы находятся три основных компонента: (i) модуль понимания изображения, который эффективно улавливает геометрию, материалы и физические параметры изображения; (ii) модель симуляции динамики в пространстве изображений, которая использует физику твердого тела и выведенные параметры для моделирования реалистичного поведения; и (iii) модуль визуализации и улучшения на основе изображений, который использует генеративную диффузию видео для создания реалистичных видеозаписей с имитацией движения. Полученные видео реалистичны как с точки зрения физики, так и внешнего вида, и даже точно управляемы, демонстрируя превосходные результаты по сравнению с существующими работами по генерации видео изображений на основе данных через количественное сравнение и всестороннее пользовательское исследование. Видеозаписи, созданные с помощью PhysGen, могут использоваться для различных последующих приложений, таких как превращение изображения в реалистичную анимацию или предоставление возможности пользователям взаимодействовать с изображением и создавать различную динамику. Страница проекта: https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a
single image and an input condition (e.g., force and torque applied to an
object in the image) to produce a realistic, physically plausible, and
temporally consistent video. Our key insight is to integrate model-based
physical simulation with a data-driven video generation process, enabling
plausible image-space dynamics. At the heart of our system are three core
components: (i) an image understanding module that effectively captures the
geometry, materials, and physical parameters of the image; (ii) an image-space
dynamics simulation model that utilizes rigid-body physics and inferred
parameters to simulate realistic behaviors; and (iii) an image-based rendering
and refinement module that leverages generative video diffusion to produce
realistic video footage featuring the simulated motion. The resulting videos
are realistic in both physics and appearance and are even precisely
controllable, showcasing superior results over existing data-driven
image-to-video generation works through quantitative comparison and
comprehensive user study. PhysGen's resulting videos can be used for various
downstream applications, such as turning an image into a realistic animation or
allowing users to interact with the image and create various dynamics. Project
page: https://stevenlsw.github.io/physgen/Summary
AI-Generated Summary