ABot-PhysWorld: Modelo de Fundação de Mundo Interativo para Manipulação Robótica com Alinhamento Físico

Resumo

Os modelos de mundo baseados em vídeo oferecem um paradigma poderoso para simulação e planejamento corporificados, porém os modelos de última geração frequentemente geram manipulações fisicamente implausíveis - como penetração de objetos e movimento anti-gravitacional - devido ao treinamento em dados visuais genéricos e objetivos baseados em verossimilhança que ignoram as leis físicas. Apresentamos o ABot-PhysWorld, um modelo Diffusion Transformer de 14B que gera vídeos visualmente realistas, fisicamente plausíveis e controláveis por ações. Construído sobre um conjunto de dados curado de três milhões de clipes de manipulação com anotação consciente da física, ele utiliza uma nova estrutura de pós-treinamento baseada em DPO com discriminadores desacoplados para suprimir comportamentos não físicos enquanto preserva a qualidade visual. Um bloco de contexto paralelo permite a injeção precisa de ações espaciais para controle de encarnação cruzada. Para melhor avaliar a generalização, introduzimos o EZSbench, o primeiro benchmark de zero-shot corporificado independente do treinamento, combinando combinações inéditas de robô-tarefa-cena reais e sintéticas. Ele emprega um protocolo desacoplado para avaliar separadamente o realismo físico e o alinhamento de ações. O ABot-PhysWorld alcança um novo desempenho de última geração no PBench e no EZSbench, superando o Veo 3.1 e o Sora v2 Pro em plausibilidade física e consistência de trajetória. Liberaremos o EZSbench para promover a avaliação padronizada na geração de vídeo corporificada.

English

Video-based world models offer a powerful paradigm for embodied simulation and planning, yet state-of-the-art models often generate physically implausible manipulations - such as object penetration and anti-gravity motion - due to training on generic visual data and likelihood-based objectives that ignore physical laws. We present ABot-PhysWorld, a 14B Diffusion Transformer model that generates visually realistic, physically plausible, and action-controllable videos. Built on a curated dataset of three million manipulation clips with physics-aware annotation, it uses a novel DPO-based post-training framework with decoupled discriminators to suppress unphysical behaviors while preserving visual quality. A parallel context block enables precise spatial action injection for cross-embodiment control. To better evaluate generalization, we introduce EZSbench, the first training-independent embodied zero-shot benchmark combining real and synthetic unseen robot-task-scene combinations. It employs a decoupled protocol to separately assess physical realism and action alignment. ABot-PhysWorld achieves new state-of-the-art performance on PBench and EZSbench, surpassing Veo 3.1 and Sora v2 Pro in physical plausibility and trajectory consistency. We will release EZSbench to promote standardized evaluation in embodied video generation.

ABot-PhysWorld: Modelo de Fundação de Mundo Interativo para Manipulação Robótica com Alinhamento Físico

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Resumo

Support