ABot-PhysWorld: Modelo Fundacional de Mundo Interactivo para la Manipulación Robótica con Alineación Física

Resumen

Los modelos del mundo basados en video ofrecen un paradigma poderoso para la simulación y planificación embodidas; sin embargo, los modelos de última generación a menudo generan manipulaciones físicamente inverosímiles —como la penetración de objetos y movimientos antigravitatorios— debido al entrenamiento con datos visuales genéricos y objetivos basados en verosimilitud que ignoran las leyes físicas. Presentamos ABot-PhysWorld, un modelo de Transformer de Difusión de 14B que genera videos visualmente realistas, físicamente plausibles y controlables mediante acciones. Desarrollado a partir de un conjunto de datos curado de tres millones de clips de manipulación con anotaciones conscientes de la física, utiliza un novedoso marco de post-entrenamiento basado en DPO con discriminadores desacoplados para suprimir comportamientos no físicos manteniendo la calidad visual. Un bloque de contexto paralelo permite la inyección precisa de acciones espaciales para el control de embodimiento cruzado. Para evaluar mejor la generalización, presentamos EZSbench, el primer benchmark de cero-shot embodido independiente del entrenamiento que combina combinaciones reales y sintéticas no vistas de robot-tarea-escena. Emplea un protocolo desacoplado para evaluar por separado el realismo físico y la alineación de acciones. ABot-PhysWorld logra un nuevo rendimiento de vanguardia en PBench y EZSbench, superando a Veo 3.1 y Sora v2 Pro en plausibilidad física y consistencia de trayectorias. Liberaremos EZSbench para promover una evaluación estandarizada en la generación de video embodido.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld: Modelo Fundacional de Mundo Interactivo para la Manipulación Robótica con Alineación Física

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Resumen

Support