ABot-PhysWorld: Modello Fondamentale Interattivo del Mondo per la Manipolazione Robotica con Allineamento Fisico

Abstract

I modelli mondiali basati su video offrono un paradigma potente per la simulazione e la pianificazione embodied, tuttavia i modelli all'avanguardia spesso generano manipolazioni fisicamente implausibili - come la penetrazione di oggetti e il moto anti-gravitazionale - a causa dell'addestramento su dati visivi generici e di obiettivi basati sulla verosimiglianza che ignorano le leggi fisiche. Presentiamo ABot-PhysWorld, un modello Diffusion Transformer da 14B che genera video visivamente realistici, fisicamente plausibili e controllabili tramite azioni. Sviluppato su un dataset curato di tre milioni di clip di manipolazione con annotazioni fisicamente consapevoli, utilizza un nuovo framework di post-addestramento basato su DPO con discriminatori disaccoppiati per sopprimere i comportamenti non fisici preservando la qualità visiva. Un blocco di contesto parallelo consente un'iniezione precisa di azioni spaziali per il controllo cross-embodiment. Per valutare meglio la generalizzazione, introduciamo EZSbench, il primo benchmark embodied zero-shot indipendente dall'addestramento che combina combinazioni non viste di robot-compito-scena reali e sintetiche. Impiega un protocollo disaccoppiato per valutare separatamente il realismo fisico e l'allineamento all'azione. ABot-PhysWorld raggiunge nuove prestazioni all'avanguardia su PBench ed EZSbench, superando Veo 3.1 e Sora v2 Pro in plausibilità fisica e coerenza della traiettoria. Rilasceremo EZSbench per promuovere una valutazione standardizzata nella generazione di video embodied.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld: Modello Fondamentale Interattivo del Mondo per la Manipolazione Robotica con Allineamento Fisico

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Abstract

Support