PhysMaster: Meester worden in fysieke representatie voor videogeneratie via reinforcement learning

Samenvatting

Videogeneratiemodellen zijn tegenwoordig in staat visueel realistische video's te genereren, maar slagen er vaak niet in zich aan fysische wetten te houden, wat hun vermogen beperkt om fysisch plausibele video's te genereren en als 'wereldmodellen' te dienen. Om dit probleem aan te pakken, stellen we PhysMaster voor, dat fysische kennis vastlegt als een representatie om videogeneratiemodellen te begeleiden en hun fysica-bewustzijn te vergroten. Specifiek is PhysMaster gebaseerd op de taak van beeld-naar-video, waarbij het model fysisch plausibele dynamiek moet voorspellen op basis van het invoerbeeld. Aangezien het invoerbeeld fysische aannames biedt, zoals relatieve posities en mogelijke interacties van objecten in het scenario, ontwikkelen we PhysEncoder om fysische informatie daaruit te coderen als een extra voorwaarde om fysische kennis in het videogeneratieproces te injecteren. Het ontbreken van geschikte supervisie op het fysische presteren van het model, verder dan alleen het uiterlijk, motiveert PhysEncoder om reinforcement learning met menselijke feedback toe te passen op fysische representatieleer, waarbij feedback van generatiemodellen wordt benut om fysische representaties te optimaliseren met Direct Preference Optimization (DPO) op een end-to-end manier. PhysMaster biedt een haalbare oplossing om het fysica-bewustzijn van PhysEncoder en daarmee van videogeneratie te verbeteren, wat zijn vermogen aantoont op een eenvoudige proeftaak en generaliseerbaarheid naar een breed scala aan fysische scenario's. Dit impliceert dat onze PhysMaster, dat oplossingen voor verschillende fysische processen verenigt via representatieleer in het reinforcement learning-paradigma, kan fungeren als een generieke en plug-in oplossing voor fysica-bewuste videogeneratie en bredere toepassingen.

English

Video generation models nowadays are capable of generating visually realistic videos, but often fail to adhere to physical laws, limiting their ability to generate physically plausible videos and serve as ''world models''. To address this issue, we propose PhysMaster, which captures physical knowledge as a representation for guiding video generation models to enhance their physics-awareness. Specifically, PhysMaster is based on the image-to-video task where the model is expected to predict physically plausible dynamics from the input image. Since the input image provides physical priors like relative positions and potential interactions of objects in the scenario, we devise PhysEncoder to encode physical information from it as an extra condition to inject physical knowledge into the video generation process. The lack of proper supervision on the model's physical performance beyond mere appearance motivates PhysEncoder to apply reinforcement learning with human feedback to physical representation learning, which leverages feedback from generation models to optimize physical representations with Direct Preference Optimization (DPO) in an end-to-end manner. PhysMaster provides a feasible solution for improving physics-awareness of PhysEncoder and thus of video generation, proving its ability on a simple proxy task and generalizability to wide-ranging physical scenarios. This implies that our PhysMaster, which unifies solutions for various physical processes via representation learning in the reinforcement learning paradigm, can act as a generic and plug-in solution for physics-aware video generation and broader applications.

PhysMaster: Meester worden in fysieke representatie voor videogeneratie via reinforcement learning

PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

Samenvatting

Support