PhysMaster: Dominando a Representação Física para Geração de Vídeo por meio de Aprendizado por Reforço
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
Autores: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Resumo
Os modelos de geração de vídeo atuais são capazes de produzir vídeos visualmente realistas, mas frequentemente falham em aderir às leis físicas, limitando sua capacidade de gerar vídeos fisicamente plausíveis e atuar como "modelos do mundo". Para resolver esse problema, propomos o PhysMaster, que captura conhecimento físico como uma representação para orientar modelos de geração de vídeo a aprimorar sua consciência física. Especificamente, o PhysMaster é baseado na tarefa de imagem para vídeo, na qual o modelo deve prever dinâmicas fisicamente plausíveis a partir de uma imagem de entrada. Como a imagem de entrada fornece prévias físicas, como posições relativas e interações potenciais dos objetos no cenário, desenvolvemos o PhysEncoder para codificar informações físicas dela como uma condição adicional, injetando conhecimento físico no processo de geração de vídeo. A falta de supervisão adequada sobre o desempenho físico do modelo, além da mera aparência, motiva o PhysEncoder a aplicar aprendizado por reforço com feedback humano ao aprendizado de representações físicas, que aproveita o feedback dos modelos de geração para otimizar representações físicas com Otimização de Preferência Direta (DPO) de ponta a ponta. O PhysMaster oferece uma solução viável para melhorar a consciência física do PhysEncoder e, consequentemente, da geração de vídeo, comprovando sua capacidade em uma tarefa proxy simples e sua generalização para uma ampla gama de cenários físicos. Isso implica que nosso PhysMaster, que unifica soluções para diversos processos físicos por meio de aprendizado de representações no paradigma de aprendizado por reforço, pode atuar como uma solução genérica e plug-and-play para geração de vídeo com consciência física e aplicações mais amplas.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.