PhysMaster : Maîtrise de la représentation physique pour la génération de vidéos via l'apprentissage par renforcement
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
papers.authors: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
papers.abstract
Les modèles de génération de vidéos actuels sont capables de produire des vidéos visuellement réalistes, mais échouent souvent à respecter les lois physiques, limitant ainsi leur capacité à générer des vidéos physiquement plausibles et à servir de « modèles du monde ». Pour résoudre ce problème, nous proposons PhysMaster, qui capture les connaissances physiques sous forme de représentation afin de guider les modèles de génération de vidéos et d'améliorer leur conscience physique. Plus précisément, PhysMaster s'appuie sur la tâche de transformation d'image en vidéo, où le modèle est censé prédire des dynamiques physiquement plausibles à partir de l'image d'entrée. Étant donné que l'image d'entrée fournit des informations physiques préalables, telles que les positions relatives et les interactions potentielles des objets dans le scénario, nous concevons PhysEncoder pour encoder ces informations physiques comme une condition supplémentaire, afin d'injecter des connaissances physiques dans le processus de génération de vidéos. L'absence de supervision adéquate sur les performances physiques du modèle au-delà de la simple apparence motive PhysEncoder à appliquer l'apprentissage par renforcement avec un retour d'information humain à l'apprentissage de représentations physiques, en exploitant les retours des modèles de génération pour optimiser les représentations physiques avec l'Optimisation Directe des Préférences (DPO) de manière end-to-end. PhysMaster offre une solution viable pour améliorer la conscience physique de PhysEncoder et, par conséquent, de la génération de vidéos, démontrant ses capacités sur une tâche proxy simple et sa généralisabilité à un large éventail de scénarios physiques. Cela implique que notre PhysMaster, qui unifie les solutions pour divers processus physiques via l'apprentissage de représentations dans le paradigme de l'apprentissage par renforcement, peut servir de solution générique et plug-and-play pour la génération de vidéos conscientes des lois physiques et des applications plus larges.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.