ABot-PhysWorld : Modèle Fondamental de Monde Interactif pour la Manipulation Robotique avec Alignement Physique

Résumé

Les modèles de monde basés sur la vidéo offrent un paradigme puissant pour la simulation et la planification incarnées. Cependant, les modèles de l'état de l'art génèrent souvent des manipulations physiquement improbables - telles que la pénétration d'objets et des mouvements anti-gravité - en raison de l'entraînement sur des données visuelles génériques et d'objectifs basés sur la vraisemblance qui ignorent les lois physiques. Nous présentons ABot-PhysWorld, un modèle Transformeur à Diffusion de 14B qui génère des vidéos visuellement réalistes, physiquement plausibles et contrôlables par l'action. Construit sur un jeu de données curé de trois millions de clips de manipulation avec une annotation consciente de la physique, il utilise un nouveau cadre de post-formation basé sur DPO avec des discriminateurs découplés pour supprimer les comportements non physiques tout en préservant la qualité visuelle. Un bloc de contexte parallèle permet une injection d'action spatiale précise pour un contrôle trans-embodiment. Pour mieux évaluer la généralisation, nous introduisons EZSbench, le premier benchmark de type "zéro-shot incarné" indépendant de l'entraînement, combinant des combinaisons réelles et synthétiques non vues de robot-tâche-scène. Il emploie un protocole découplé pour évaluer séparément le réalisme physique et l'alignement de l'action. ABot-PhysWorld atteint de nouvelles performances de pointe sur PBench et EZSbench, surpassant Veo 3.1 et Sora v2 Pro en plausibilité physique et en cohérence de trajectoire. Nous publierons EZSbench pour promouvoir une évaluation standardisée dans la génération de vidéos incarnées.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld : Modèle Fondamental de Monde Interactif pour la Manipulation Robotique avec Alignement Physique

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Résumé

Support