PhysMaster: Beherrschung der physikalischen Darstellung für die Videogenerierung durch Reinforcement Learning
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
papers.authors: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
papers.abstract
Videogenerierungsmodelle sind heutzutage in der Lage, visuell realistische Videos zu erzeugen, scheitern jedoch oft daran, physikalische Gesetze einzuhalten, was ihre Fähigkeit einschränkt, physikalisch plausible Videos zu generieren und als „Weltmodelle“ zu dienen. Um dieses Problem zu lösen, schlagen wir PhysMaster vor, das physikalisches Wissen als Repräsentation erfasst, um Videogenerierungsmodelle bei der Steigerung ihres Physikbewusstseins zu leiten. Konkret basiert PhysMaster auf der Aufgabe der Bild-zu-Video-Generierung, bei der das Modell physikalisch plausible Dynamiken aus dem Eingabebild vorhersagen soll. Da das Eingabebild physikalische Prioritäten wie relative Positionen und potenzielle Interaktionen von Objekten im Szenario liefert, entwickeln wir PhysEncoder, um physikalische Informationen daraus als zusätzliche Bedingung zu kodieren und physikalisches Wissen in den Videogenerierungsprozess einzubringen. Der Mangel an geeigneter Überwachung der physikalischen Leistung des Modells über das bloße Erscheinungsbild hinaus motiviert PhysEncoder, Reinforcement Learning mit menschlichem Feedback auf das Lernen physikalischer Repräsentationen anzuwenden, wobei Feedback von Generierungsmodellen genutzt wird, um physikalische Repräsentationen mit Direct Preference Optimization (DPO) end-to-end zu optimieren. PhysMaster bietet eine praktikable Lösung zur Verbesserung des Physikbewusstseins von PhysEncoder und damit der Videogenerierung, was seine Fähigkeit bei einer einfachen Stellvertreteraufgabe und die Generalisierbarkeit auf breite physikalische Szenarien beweist. Dies impliziert, dass unser PhysMaster, das Lösungen für verschiedene physikalische Prozesse durch Repräsentationslernen im Reinforcement-Learning-Paradigma vereint, als generische und plug-in-fähige Lösung für physikbewusste Videogenerierung und weitere Anwendungen dienen kann.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.