PhysMaster: Meester worden in fysieke representatie voor videogeneratie via reinforcement learning
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
Auteurs: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Samenvatting
Videogeneratiemodellen zijn tegenwoordig in staat visueel realistische video's te genereren, maar slagen er vaak niet in zich aan fysische wetten te houden, wat hun vermogen beperkt om fysisch plausibele video's te genereren en als 'wereldmodellen' te dienen. Om dit probleem aan te pakken, stellen we PhysMaster voor, dat fysische kennis vastlegt als een representatie om videogeneratiemodellen te begeleiden en hun fysica-bewustzijn te vergroten. Specifiek is PhysMaster gebaseerd op de taak van beeld-naar-video, waarbij het model fysisch plausibele dynamiek moet voorspellen op basis van het invoerbeeld. Aangezien het invoerbeeld fysische aannames biedt, zoals relatieve posities en mogelijke interacties van objecten in het scenario, ontwikkelen we PhysEncoder om fysische informatie daaruit te coderen als een extra voorwaarde om fysische kennis in het videogeneratieproces te injecteren. Het ontbreken van geschikte supervisie op het fysische presteren van het model, verder dan alleen het uiterlijk, motiveert PhysEncoder om reinforcement learning met menselijke feedback toe te passen op fysische representatieleer, waarbij feedback van generatiemodellen wordt benut om fysische representaties te optimaliseren met Direct Preference Optimization (DPO) op een end-to-end manier. PhysMaster biedt een haalbare oplossing om het fysica-bewustzijn van PhysEncoder en daarmee van videogeneratie te verbeteren, wat zijn vermogen aantoont op een eenvoudige proeftaak en generaliseerbaarheid naar een breed scala aan fysische scenario's. Dit impliceert dat onze PhysMaster, dat oplossingen voor verschillende fysische processen verenigt via representatieleer in het reinforcement learning-paradigma, kan fungeren als een generieke en plug-in oplossing voor fysica-bewuste videogeneratie en bredere toepassingen.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.