PhysMaster: Dominio de la representación física para la generación de vídeo mediante aprendizaje por refuerzo
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
Autores: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Resumen
Los modelos de generación de video actuales son capaces de producir videos visualmente realistas, pero a menudo no logran adherirse a las leyes físicas, lo que limita su capacidad para generar videos físicamente plausibles y funcionar como "modelos del mundo". Para abordar este problema, proponemos PhysMaster, que captura el conocimiento físico como una representación para guiar a los modelos de generación de video y mejorar su conciencia física. Específicamente, PhysMaster se basa en la tarea de imagen a video, donde se espera que el modelo prediga dinámicas físicamente plausibles a partir de una imagen de entrada. Dado que la imagen de entrada proporciona conocimientos previos físicos, como las posiciones relativas y las interacciones potenciales de los objetos en el escenario, diseñamos PhysEncoder para codificar la información física de la imagen como una condición adicional que inyecta conocimiento físico en el proceso de generación de video. La falta de supervisión adecuada sobre el desempeño físico del modelo, más allá de la mera apariencia, motiva a PhysEncoder a aplicar aprendizaje por refuerzo con retroalimentación humana al aprendizaje de representaciones físicas, lo que aprovecha la retroalimentación de los modelos de generación para optimizar las representaciones físicas mediante Optimización Directa de Preferencias (DPO) de manera integral. PhysMaster ofrece una solución viable para mejorar la conciencia física de PhysEncoder y, por lo tanto, de la generación de video, demostrando su capacidad en una tarea proxy simple y su generalización a una amplia gama de escenarios físicos. Esto implica que nuestro PhysMaster, que unifica soluciones para diversos procesos físicos mediante el aprendizaje de representaciones en el paradigma de aprendizaje por refuerzo, puede actuar como una solución genérica y plug-in para la generación de video con conciencia física y aplicaciones más amplias.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.