ChatPaper.aiChatPaper

PhysGen:剛体物理学に基づく画像からビデオへの生成

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

September 27, 2024
著者: Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang
cs.AI

要旨

私たちは、PhysGenという新しい画像から動画を生成する手法を提案します。この手法は、単一の画像と入力条件(例:画像内のオブジェクトに適用される力とトルク)を使用して、現実的で物理的に妥当で時間的に整合性のあるビデオを生成します。私たちの主要な洞察は、モデルベースの物理シミュレーションとデータ駆動型のビデオ生成プロセスを統合し、画像空間のダイナミクスを可能にすることです。当システムの中心には、次の3つの主要なコンポーネントがあります:(i) 画像理解モジュールは、画像の幾何学、材料、および物理パラメータを効果的に捉えます。(ii) 画像空間のダイナミクスシミュレーションモデルは、剛体物理と推定されたパラメータを利用して現実的な振る舞いをシミュレートします。(iii) 画像ベースのレンダリングとリファインメントモジュールは、生成的ビデオ拡散を活用して、シミュレートされた動きを特徴とするリアルなビデオ映像を生成します。その結果得られるビデオは、物理的にも外観的にも現実的であり、既存のデータ駆動型画像からビデオを生成する作品と比較して、定量的な比較と包括的なユーザースタディを通じて優れた結果を示しています。PhysGenによって生成されたビデオは、画像をリアルなアニメーションに変換したり、ユーザーが画像と対話してさまざまなダイナミクスを作成したりするなど、さまざまな下流アプリケーションに使用できます。プロジェクトページ:https://stevenlsw.github.io/physgen/
English
We present PhysGen, a novel image-to-video generation method that converts a single image and an input condition (e.g., force and torque applied to an object in the image) to produce a realistic, physically plausible, and temporally consistent video. Our key insight is to integrate model-based physical simulation with a data-driven video generation process, enabling plausible image-space dynamics. At the heart of our system are three core components: (i) an image understanding module that effectively captures the geometry, materials, and physical parameters of the image; (ii) an image-space dynamics simulation model that utilizes rigid-body physics and inferred parameters to simulate realistic behaviors; and (iii) an image-based rendering and refinement module that leverages generative video diffusion to produce realistic video footage featuring the simulated motion. The resulting videos are realistic in both physics and appearance and are even precisely controllable, showcasing superior results over existing data-driven image-to-video generation works through quantitative comparison and comprehensive user study. PhysGen's resulting videos can be used for various downstream applications, such as turning an image into a realistic animation or allowing users to interact with the image and create various dynamics. Project page: https://stevenlsw.github.io/physgen/

Summary

AI-Generated Summary

PDF272November 16, 2024