ChatPaper.aiChatPaper

로보스케이프: 물리학 기반 구현형 세계 모델

RoboScape: Physics-informed Embodied World Model

June 29, 2025
저자: Yu Shang, Xin Zhang, Yinzhou Tang, Lei Jin, Chen Gao, Wei Wu, Yong Li
cs.AI

초록

세계 모델은 현실적인 로봇 비디오를 생성하면서도 중요한 데이터 부족 문제를 해결할 수 있는 강력한 시뮬레이터로서, 구체화된 지능을 위한 필수적인 도구가 되었습니다. 그러나 현재의 구체화된 세계 모델은 3D 기하학과 운동 역학을 모델링하는 데 있어 제한된 물리적 인식을 보여주며, 이는 접촉이 빈번한 로봇 시나리오에서 비현실적인 비디오 생성을 초래합니다. 본 논문에서는 RGB 비디오 생성과 물리 지식을 통합된 프레임워크 내에서 공동으로 학습하는 통합 물리 기반 세계 모델인 RoboScape를 제시합니다. 우리는 두 가지 주요 물리 기반 공동 학습 과제를 소개합니다: 비디오 렌더링에서 3D 기하학적 일관성을 강화하는 시간적 깊이 예측과, 복잡한 운동 모델링을 개선하면서 물체의 형태 및 재료 특성과 같은 물리적 특성을 암묵적으로 인코딩하는 키포인트 역학 학습입니다. 광범위한 실험을 통해 RoboScape가 다양한 로봇 시나리오에서 우수한 시각적 충실도와 물리적 타당성을 갖춘 비디오를 생성함을 입증합니다. 또한, 생성된 데이터를 활용한 로봇 정책 훈련 및 정책 평가와 같은 하위 응용 프로그램을 통해 실용성을 검증합니다. 본 연구는 구체화된 지능 연구를 발전시키기 위한 효율적인 물리 기반 세계 모델 구축에 대한 새로운 통찰을 제공합니다. 코드는 https://github.com/tsinghua-fib-lab/RoboScape에서 확인할 수 있습니다.
English
World models have become indispensable tools for embodied intelligence, serving as powerful simulators capable of generating realistic robotic videos while addressing critical data scarcity challenges. However, current embodied world models exhibit limited physical awareness, particularly in modeling 3D geometry and motion dynamics, resulting in unrealistic video generation for contact-rich robotic scenarios. In this paper, we present RoboScape, a unified physics-informed world model that jointly learns RGB video generation and physics knowledge within an integrated framework. We introduce two key physics-informed joint training tasks: temporal depth prediction that enhances 3D geometric consistency in video rendering, and keypoint dynamics learning that implicitly encodes physical properties (e.g., object shape and material characteristics) while improving complex motion modeling. Extensive experiments demonstrate that RoboScape generates videos with superior visual fidelity and physical plausibility across diverse robotic scenarios. We further validate its practical utility through downstream applications including robotic policy training with generated data and policy evaluation. Our work provides new insights for building efficient physics-informed world models to advance embodied intelligence research. The code is available at: https://github.com/tsinghua-fib-lab/RoboScape.
PDF21July 1, 2025