ABot-PhysWorld:物理整合によるロボットマニピュレーションのためのインタラクティブ世界基盤モデル
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
March 24, 2026
著者: Yuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
要旨
映像ベースの世界モデルは身体性シミュレーションと計画の強力なパラダイムを提供するが、既存の最先端モデルは、物理法則を無視した汎用視覚データへの学習と尤度ベースの目的関数により、物体貫通や反重力運動など物理的に不可能な操作を生成しがちである。本論文では、視覚的にリアルで物理的に妥当、かつ動作制御可能な映像を生成する140億パラメータのDiffusion Transformerモデル「ABot-PhysWorld」を提案する。物理法則を考慮した注釈を付与した300万の操作クリップから構成される精選データセットに基づき、視覚品質を保ちつつ非物理的挙動を抑制するため、分離型識別器を備えた新規のDPOベース学習後フレームワークを採用する。並列コンテキストブロックにより、異なる身体構造間での精密な空間動作注入を実現する。一般化性能をより適切に評価するため、実世界と合成の未見過ロボット-タスク-環境組合せを統合した初の学習データ非依存型身体性ゼロショットベンチマーク「EZSbench」を導入する。これは物理的真实性と動作整合性を別個に評価する分離型プロトコルを採用する。ABot-PhysWorldはPBenchとEZSbenchにおいて新たな最先端性能を達成し、物理的妥当性と軌道一貫性でVeo 3.1およびSora v2 Proを凌駕した。EZSbenchは身体性映像生成の標準化評価促進のため公開予定である。
English
Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.