ABot-PhysWorld: 물리 법칙 정합을 통한 로봇 매니픈레이션을 위한 인터랙티브 세계 기초 모델
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
March 24, 2026
저자: Yuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
초록
비디오 기반 세계 모델은 구현형 시뮬레이션 및 계획을 위한 강력한 패러다임을 제공하지만, 최첨단 모델들은 일반적인 시각 데이터 학습과 물리 법칙을 무시하는 가능도 기반 목적 함수로 인해 객체 관통 및 반중력 운동과 같은 물리적으로 비현실적인 조작을 생성하는 경우가 많습니다. 우리는 시각적으로 현실적이고 물리적으로 타당하며 동작 제어가 가능한 비디오를 생성하는 14B 디퓨전 트랜스포머 모델인 ABot-PhysWorld를 제시합니다. 물리 인식 주석이 달린 300만 개의 조작 클립으로 구성된 정제된 데이터셋을 기반으로 하며, 시각적 품질을 유지하면서 비물리적 행동을 억제하기 위해 분리된 판별자를 활용한 새로운 DPO 기반 사후 학습 프레임워크를 사용합니다. 병렬 컨텍스트 블록은 교차 구현체 제어를 위한 정확한 공간 동작 주입을 가능하게 합니다. 일반화 성능 평가를 개선하기 위해, 실제와 합성의 보지 않은 로봇-작업-장면 조합을 결합한 최초의 학습 독립형 구현체 제로샷 벤치마크인 EZSbench를 도입했습니다. 이는 물리적 현실감과 동작 정렬도를 별도로 평가하는 분리된 프로토콜을 채택합니다. ABot-PhysWorld는 PBench와 EZSbench에서 최첨단 성능을 달성하여 Veo 3.1 및 Sora v2 Pro를 물리적 타당성과 궤적 일관성 측면에서 능가했습니다. 구현체 비디오 생성 분야의 표준화된 평가 촉진을 위해 EZSbench를 공개할 예정입니다.
English
Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.