ChatPaper.aiChatPaper

PhysMaster: 강화 학습을 통한 비디오 생성을 위한 물리적 표현 마스터링

PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

October 15, 2025
저자: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI

초록

현재의 비디오 생성 모델은 시각적으로 현실적인 비디오를 생성할 수 있지만, 종종 물리 법칙을 준수하지 못하여 물리적으로 타당한 비디오를 생성하고 '세계 모델'로서의 역할을 수행하는 데 한계가 있습니다. 이 문제를 해결하기 위해, 우리는 물리 지식을 표현으로 포착하여 비디오 생성 모델의 물리적 인식을 향상시키는 PhysMaster를 제안합니다. 구체적으로, PhysMaster는 이미지-투-비디오 작업을 기반으로 하며, 모델이 입력 이미지로부터 물리적으로 타당한 동역학을 예측할 것으로 기대됩니다. 입력 이미지는 시나리오 내 객체들의 상대적 위치 및 잠재적 상호작용과 같은 물리적 사전 정보를 제공하기 때문에, 우리는 PhysEncoder를 설계하여 이를 추가 조건으로 인코딩하여 비디오 생성 과정에 물리적 지식을 주입합니다. 단순한 외관 이상의 모델의 물리적 성능에 대한 적절한 감독의 부재는 PhysEncoder가 인간 피드백을 활용한 강화 학습을 물리적 표현 학습에 적용하도록 동기를 부여하며, 이는 생성 모델의 피드백을 활용하여 Direct Preference Optimization(DPO)을 통해 물리적 표현을 종단 간 방식으로 최적화합니다. PhysMaster는 PhysEncoder의 물리적 인식을 향상시키고, 이를 통해 비디오 생성의 물리적 인식을 개선하는 실현 가능한 솔루션을 제공하며, 간단한 프록시 작업에서의 능력과 다양한 물리적 시나리오에 대한 일반화 가능성을 입증합니다. 이는 강화 학습 패러다임 내에서 표현 학습을 통해 다양한 물리적 프로세스에 대한 솔루션을 통합한 우리의 PhysMaster가 물리적 인식을 고려한 비디오 생성 및 더 넓은 응용 분야에 대한 일반적이고 플러그인 가능한 솔루션으로 작용할 수 있음을 시사합니다.
English
Video generation models nowadays are capable of generating visually realistic videos, but often fail to adhere to physical laws, limiting their ability to generate physically plausible videos and serve as ''world models''. To address this issue, we propose PhysMaster, which captures physical knowledge as a representation for guiding video generation models to enhance their physics-awareness. Specifically, PhysMaster is based on the image-to-video task where the model is expected to predict physically plausible dynamics from the input image. Since the input image provides physical priors like relative positions and potential interactions of objects in the scenario, we devise PhysEncoder to encode physical information from it as an extra condition to inject physical knowledge into the video generation process. The lack of proper supervision on the model's physical performance beyond mere appearance motivates PhysEncoder to apply reinforcement learning with human feedback to physical representation learning, which leverages feedback from generation models to optimize physical representations with Direct Preference Optimization (DPO) in an end-to-end manner. PhysMaster provides a feasible solution for improving physics-awareness of PhysEncoder and thus of video generation, proving its ability on a simple proxy task and generalizability to wide-ranging physical scenarios. This implies that our PhysMaster, which unifies solutions for various physical processes via representation learning in the reinforcement learning paradigm, can act as a generic and plug-in solution for physics-aware video generation and broader applications.
PDF362October 16, 2025