Aprendizagem de Robôs a partir de um Modelo Físico do Mundo
Robot Learning from a Physical World Model
November 10, 2025
Autores: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI
Resumo
Apresentamos o PhysWorld, uma estrutura que permite o aprendizado de robôs por meio da geração de vídeos baseada na modelagem do mundo físico. Modelos recentes de geração de vídeo podem sintetizar demonstrações visuais fotorrealistas a partir de comandos de linguagem e imagens, oferecendo uma fonte de sinais de treinamento poderosa, porém pouco explorada, para a robótica. No entanto, redirecionar diretamente os movimentos de pixels de vídeos gerados para robôs ignora a física, frequentemente resultando em manipulações imprecisas. O PhysWorld aborda essa limitação ao acoplar a geração de vídeo com a reconstrução do mundo físico. Dada uma única imagem e um comando de tarefa, nosso método gera vídeos condicionados pela tarefa e reconstrói o mundo físico subjacente a partir dos vídeos; os movimentos gerados no vídeo são fundamentados em ações fisicamente precisas por meio de aprendizado por reforço residual centrado em objetos, utilizando o modelo de mundo físico. Essa sinergia transforma orientações visuais implícitas em trajetórias robóticas fisicamente executáveis, eliminando a necessidade de coleta de dados de robôs reais e permitindo a manipulação robótica generalizável de modo *zero-shot*. Experimentos em diversas tarefas do mundo real demonstram que o PhysWorld melhora substancialmente a precisão da manipulação em comparação com abordagens anteriores. Visite https://pointscoder.github.io/PhysWorld_Web/{a página do projeto} para detalhes.
English
We introduce PhysWorld, a framework that enables robot learning from video
generation through physical world modeling. Recent video generation models can
synthesize photorealistic visual demonstrations from language commands and
images, offering a powerful yet underexplored source of training signals for
robotics. However, directly retargeting pixel motions from generated videos to
robots neglects physics, often resulting in inaccurate manipulations. PhysWorld
addresses this limitation by coupling video generation with physical world
reconstruction. Given a single image and a task command, our method generates
task-conditioned videos and reconstructs the underlying physical world from the
videos, and the generated video motions are grounded into physically accurate
actions through object-centric residual reinforcement learning with the
physical world model. This synergy transforms implicit visual guidance into
physically executable robotic trajectories, eliminating the need for real robot
data collection and enabling zero-shot generalizable robotic manipulation.
Experiments on diverse real-world tasks demonstrate that PhysWorld
substantially improves manipulation accuracy compared to previous approaches.
Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage}
for details.