ChatPaper.aiChatPaper

PhysMaster:強化学習によるビデオ生成のための物理表現のマスタリング

PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

October 15, 2025
著者: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI

要旨

現在の映像生成モデルは視覚的にリアルな映像を生成することが可能であるが、物理法則に従わないことが多く、物理的に妥当な映像を生成し「世界モデル」として機能する能力が制限されている。この問題に対処するため、我々はPhysMasterを提案する。PhysMasterは物理的知識を表現として捉え、映像生成モデルをガイドしてその物理的認識を向上させる。具体的には、PhysMasterは画像から映像を生成するタスクに基づいており、モデルは入力画像から物理的に妥当なダイナミクスを予測することが期待される。入力画像はシナリオ内の物体の相対的な位置や潜在的な相互作用などの物理的な事前情報を提供するため、PhysEncoderを設計し、物理情報をエンコードして映像生成プロセスに物理的知識を注入するための追加条件として利用する。単なる外観を超えたモデルの物理的パフォーマンスに対する適切な監督の欠如により、PhysEncoderは人間のフィードバックを用いた強化学習を物理的表現学習に適用し、生成モデルからのフィードバックを活用してDirect Preference Optimization (DPO)を用いて物理的表現をエンドツーエンドで最適化する。PhysMasterは、PhysEncoderの物理的認識を向上させ、それによって映像生成の物理的認識を向上させるための実行可能なソリューションを提供し、単純なプロキシタスクでの能力と幅広い物理的シナリオへの一般化能力を証明する。これは、強化学習パラダイムにおける表現学習を通じて様々な物理的プロセスのソリューションを統合する我々のPhysMasterが、物理的認識を備えた映像生成およびより広範なアプリケーションのための汎用的でプラグイン可能なソリューションとして機能し得ることを示唆している。
English
Video generation models nowadays are capable of generating visually realistic videos, but often fail to adhere to physical laws, limiting their ability to generate physically plausible videos and serve as ''world models''. To address this issue, we propose PhysMaster, which captures physical knowledge as a representation for guiding video generation models to enhance their physics-awareness. Specifically, PhysMaster is based on the image-to-video task where the model is expected to predict physically plausible dynamics from the input image. Since the input image provides physical priors like relative positions and potential interactions of objects in the scenario, we devise PhysEncoder to encode physical information from it as an extra condition to inject physical knowledge into the video generation process. The lack of proper supervision on the model's physical performance beyond mere appearance motivates PhysEncoder to apply reinforcement learning with human feedback to physical representation learning, which leverages feedback from generation models to optimize physical representations with Direct Preference Optimization (DPO) in an end-to-end manner. PhysMaster provides a feasible solution for improving physics-awareness of PhysEncoder and thus of video generation, proving its ability on a simple proxy task and generalizability to wide-ranging physical scenarios. This implies that our PhysMaster, which unifies solutions for various physical processes via representation learning in the reinforcement learning paradigm, can act as a generic and plug-in solution for physics-aware video generation and broader applications.
PDF362October 16, 2025