ChatPaper.aiChatPaper

Обучение роботов на основе физической модели мира

Robot Learning from a Physical World Model

November 10, 2025
Авторы: Jiageng Mao, Sicheng He, Hao-Ning Wu, Yang You, Shuyang Sun, Zhicheng Wang, Yanan Bao, Huizhong Chen, Leonidas Guibas, Vitor Guizilini, Howard Zhou, Yue Wang
cs.AI

Аннотация

Мы представляем PhysWorld — фреймворк, позволяющий обучать роботов с помощью генерации видео через моделирование физического мира. Современные модели генерации видео способны синтезировать фотореалистичные визуальные демонстрации на основе языковых команд и изображений, что представляет собой мощный, но малоизученный источник обучающих сигналов для робототехники. Однако прямое перенесение пиксельных движений из сгенерированных видео на роботов игнорирует физику, что часто приводит к неточным манипуляциям. PhysWorld преодолевает это ограничение за счёт объединения генерации видео с реконструкцией физического мира. Получив одно изображение и командую задачу, наш метод генерирует видео, обусловленные задачей, и воссоздаёт лежащий в основе физический мир из видео; движения из сгенерированного видео преобразуются в физически точные действия с помощью объектно-ориентированного резидуального обучения с подкреплением на основе модели физического мира. Эта синергия превращает неявное визуальное руководство в физически исполнимые траектории для роботов, устраняя необходимость сбора данных с реальных роботов и обеспечивая обобщаемую роботизированную манипуляцию с нулевым разгоном. Эксперименты на разнообразных реальных задачах показывают, что PhysWorld существенно повышает точность манипуляций по сравнению с предыдущими подходами. Подробности см. на https://pointscoder.github.io/PhysWorld_Web/{странице проекта}.
English
We introduce PhysWorld, a framework that enables robot learning from video generation through physical world modeling. Recent video generation models can synthesize photorealistic visual demonstrations from language commands and images, offering a powerful yet underexplored source of training signals for robotics. However, directly retargeting pixel motions from generated videos to robots neglects physics, often resulting in inaccurate manipulations. PhysWorld addresses this limitation by coupling video generation with physical world reconstruction. Given a single image and a task command, our method generates task-conditioned videos and reconstructs the underlying physical world from the videos, and the generated video motions are grounded into physically accurate actions through object-centric residual reinforcement learning with the physical world model. This synergy transforms implicit visual guidance into physically executable robotic trajectories, eliminating the need for real robot data collection and enabling zero-shot generalizable robotic manipulation. Experiments on diverse real-world tasks demonstrate that PhysWorld substantially improves manipulation accuracy compared to previous approaches. Visit https://pointscoder.github.io/PhysWorld_Web/{the project webpage} for details.
PDF282December 2, 2025