PhysMaster: Освоение физического представления для генерации видео с помощью обучения с подкреплением
PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
October 15, 2025
Авторы: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao
cs.AI
Аннотация
Современные модели генерации видео способны создавать визуально реалистичные видеоролики, но часто не соблюдают физические законы, что ограничивает их способность генерировать физически правдоподобные видео и выступать в роли «моделей мира». Для решения этой проблемы мы предлагаем PhysMaster, который извлекает физические знания в виде представления для управления моделями генерации видео с целью повышения их физической осведомленности. В частности, PhysMaster основан на задаче преобразования изображения в видео, где модель должна предсказать физически правдоподобную динамику на основе входного изображения. Поскольку входное изображение предоставляет физические априорные данные, такие как относительные положения и потенциальные взаимодействия объектов в сцене, мы разработали PhysEncoder для кодирования физической информации из него в качестве дополнительного условия, чтобы внедрить физические знания в процесс генерации видео. Отсутствие надлежащего контроля над физической производительностью модели, выходящего за пределы простого внешнего вида, побуждает PhysEncoder применять обучение с подкреплением с обратной связью от человека для обучения физическим представлениям, что позволяет использовать обратную связь от моделей генерации для оптимизации физических представлений с помощью Direct Preference Optimization (DPO) в сквозной манере. PhysMaster предлагает практическое решение для повышения физической осведомленности PhysEncoder и, следовательно, генерации видео, демонстрируя свои возможности на простой тестовой задаче и обобщаемость на широкий спектр физических сценариев. Это подразумевает, что наш PhysMaster, который объединяет решения для различных физических процессов через обучение представлениям в парадигме обучения с подкреплением, может выступать в качестве универсального и подключаемого решения для физически осознанной генерации видео и более широких применений.
English
Video generation models nowadays are capable of generating visually realistic
videos, but often fail to adhere to physical laws, limiting their ability to
generate physically plausible videos and serve as ''world models''. To address
this issue, we propose PhysMaster, which captures physical knowledge as a
representation for guiding video generation models to enhance their
physics-awareness. Specifically, PhysMaster is based on the image-to-video task
where the model is expected to predict physically plausible dynamics from the
input image. Since the input image provides physical priors like relative
positions and potential interactions of objects in the scenario, we devise
PhysEncoder to encode physical information from it as an extra condition to
inject physical knowledge into the video generation process. The lack of proper
supervision on the model's physical performance beyond mere appearance
motivates PhysEncoder to apply reinforcement learning with human feedback to
physical representation learning, which leverages feedback from generation
models to optimize physical representations with Direct Preference Optimization
(DPO) in an end-to-end manner. PhysMaster provides a feasible solution for
improving physics-awareness of PhysEncoder and thus of video generation,
proving its ability on a simple proxy task and generalizability to wide-ranging
physical scenarios. This implies that our PhysMaster, which unifies solutions
for various physical processes via representation learning in the reinforcement
learning paradigm, can act as a generic and plug-in solution for physics-aware
video generation and broader applications.