ABot-PhysWorld: Интерактивная мировая фундаментальная модель для роботизированного манипулирования с физическим выравниванием

Аннотация

Видео-ориентированные мировые модели предлагают мощную парадигму для воплощённого моделирования и планирования, однако современные модели часто генерируют физически нереалистичные манипуляции — такие как проникновение объектов и движение с нарушением гравитации — из-за обучения на общих визуальных данных и вероятностных целевых функциях, игнорирующих физические законы. Мы представляем ABot-PhysWorld, 14-миллиардную диффузионную трансформерную модель, которая генерирует визуально реалистичные, физически правдоподобные и управляемые действиями видео. Построенная на курируемом наборе данных из трёх миллионов клипов манипуляций с физически обоснованной аннотацией, модель использует новую пост-тренировочную архитектуру на основе DPO с разделёнными дискриминаторами для подавления нефизического поведения при сохранении визуального качества. Параллельный контекстный блок обеспечивает точное пространственное внедрение действий для кросс-эмбодиментного управления. Для лучшей оценки обобщения мы представляем EZSbench, первый независимый от обучения бенчмарк для воплощённого zero-shot тестирования, объединяющий реальные и синтетические комбинации робот-задача-сцена. В нём используется разделённый протокол для независимой оценки физического реализма и соответствия действий. ABot-PhysWorld демонстрирует новое состояние искусства на PBench и EZSbench, превосходя Veo 3.1 и Sora v2 Pro по физической правдоподобности и согласованности траекторий. Мы опубликуем EZSbench для содействия стандартизированной оценке в области воплощённой генерации видео.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld: Интерактивная мировая фундаментальная модель для роботизированного манипулирования с физическим выравниванием

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Аннотация

Support