PhysMaster: Padroneggiare la Rappresentazione Fisica per la Generazione di Video tramite Apprendimento per Rinforzo
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
Autori: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Abstract
I modelli di generazione video attuali sono in grado di produrre video visivamente realistici, ma spesso non rispettano le leggi fisiche, limitando la loro capacità di generare video fisicamente plausibili e di fungere da "modelli del mondo". Per affrontare questo problema, proponiamo PhysMaster, che cattura la conoscenza fisica come rappresentazione per guidare i modelli di generazione video e migliorare la loro consapevolezza fisica. Nello specifico, PhysMaster si basa sul compito di generazione video a partire da un'immagine, in cui il modello deve prevedere dinamiche fisicamente plausibili a partire dall'immagine di input. Poiché l'immagine di input fornisce prior fisici come le posizioni relative e le potenziali interazioni degli oggetti nello scenario, abbiamo progettato PhysEncoder per codificare le informazioni fisiche da essa come condizione aggiuntiva, iniettando conoscenza fisica nel processo di generazione video. La mancanza di una supervisione adeguata sulle prestazioni fisiche del modello, oltre alla mera apparenza, spinge PhysEncoder ad applicare l'apprendimento per rinforzo con feedback umano all'apprendimento di rappresentazioni fisiche, sfruttando il feedback dei modelli di generazione per ottimizzare le rappresentazioni fisiche con Direct Preference Optimization (DPO) in modo end-to-end. PhysMaster fornisce una soluzione praticabile per migliorare la consapevolezza fisica di PhysEncoder e, di conseguenza, della generazione video, dimostrando la sua capacità su un semplice compito proxy e la sua generalizzabilità a un'ampia gamma di scenari fisici. Ciò implica che il nostro PhysMaster, che unisce soluzioni per vari processi fisici attraverso l'apprendimento di rappresentazioni nel paradigma dell'apprendimento per rinforzo, può fungere da soluzione generica e plug-and-play per la generazione video consapevole della fisica e per applicazioni più ampie.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.