ABot-PhysWorld: Interactief Wereldfundamentmodel voor Robotmanipulatie met Fysica-afstemming
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment
March 24, 2026
Auteurs: Yuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
Samenvatting
Op video gebaseerde wereldmodellen bieden een krachtig paradigma voor embodied simulatie en planning, maar state-of-the-art modellen genereren vaak fysiek onwaarschijnlijke manipulaties - zoals objectpenetratie en anti-zwaartekrachtbeweging - door training op generieke visuele data en op waarschijnlijkheid gebaseerde doelstellingen die fysieke wetten negeren. Wij presenteren ABot-PhysWorld, een 14B Diffusion Transformer-model dat visueel realistische, fysiek plausibele en actie-bestuurbare video's genereert. Gebouwd op een gecureerde dataset van drie miljoen manipulatieclips met fysica-bewuste annotatie, gebruikt het een nieuwe DPO-gebaseerde post-training framework met ontkoppelde discriminatoren om onfysisch gedrag te onderdrukken terwijl de visuele kwaliteit behouden blijft. Een parallel contextblok maakt precieze ruimtelijke actie-injectie mogelijk voor cross-embodiment controle. Ter verbetering van de evaluatie van generalisatie introduceren we EZSbench, de eerste trainings-onafhankelijke embodied zero-shot benchmark die echte en synthetische onzichtbare robot-taak-scène combinaties combineert. Het hanteert een ontkoppeld protocol om fysieke realisme en actie-alignering apart te beoordelen. ABot-PhysWorld behaalt een nieuwe state-of-the-art prestatie op PBench en EZSbench, en overtreft Veo 3.1 en Sora v2 Pro in fysieke plausibiliteit en trajectconsistentie. Wij zullen EZSbench vrijgeven om gestandaardiseerde evaluatie in embodied videogeneratie te bevorderen.
English
Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.