ABot-PhysWorld: Interaktives Weltgrundmodell für die robotische Manipulation mit physikalischer Ausrichtung

Zusammenfassung

Videobasierte Weltmodelle bieten ein leistungsstarkes Paradigma für verkörperte Simulation und Planung. Allerdings erzeugen state-of-the-art Modelle häufig physikalisch unplausible Manipulationen – wie Objektdurchdringung und Anti-Gravitations-Bewegungen –, da sie auf generischen visuellen Daten trainiert werden und likelihood-basierte Zielfunktionen nutzen, die physikalische Gesetze ignorieren. Wir stellen ABot-PhysWorld vor, ein 14B-Diffusion-Transformer-Modell, das visuell realistische, physikalisch plausible und aktionssteuerbare Videos generiert. Basierend auf einem kuratierten Datensatz von drei Millionen Manipulationsclips mit physikbewusster Annotation verwendet es einen neuartigen DPO-basierten Nachtrainierungsrahmen mit entkoppelten Diskriminatoren, um unphysikalisches Verhalten zu unterdrücken und gleichzeitig die visuelle Qualität zu erhalten. Ein paralleler Kontextblock ermöglicht die präzise räumliche Aktionseinspritzung für die körperübergreifende Steuerung. Um die Generalisierung besser zu bewerten, führen wir EZSbench ein, den ersten trainingsunabhängigen, verkörperten Zero-Shot-Benchmark, der reale und synthetische, ungesehene Roboter-Aufgaben-Szenario-Kombinationen kombiniert. Er verwendet ein entkoppeltes Protokoll, um physikalische Realitätsnähe und Aktionsausrichtung separat zu bewerten. ABot-PhysWorld erzielt eine neue state-of-the-art Leistung auf PBench und EZSbench und übertrifft Veo 3.1 und Sora v2 Pro in Bezug auf physikalische Plausibilität und Trajektorienkonsistenz. Wir werden EZSbench veröffentlichen, um eine standardisierte Evaluation in der verkörperten Videogenerierung zu fördern.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld: Interaktives Weltgrundmodell für die robotische Manipulation mit physikalischer Ausrichtung

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Zusammenfassung

Support