PAIWorld: Un Modelo Fundacional de Mundo 3D-Consistente para Manipulación Robótica

Resumen

Los modelos fundacionales del mundo (WFMs, por sus siglas en inglés) son potentes simuladores, pero operan predominantemente en una configuración de vista única y carecen de la consistencia 3D multivista necesaria para la manipulación robótica. Si bien los sistemas robóticos dependen de múltiples cámaras (egocéntricas, ojo-mano y montadas en la muñeca) para el aprendizaje de políticas, los modelos del mundo multivista actuales simplemente concatenan los tokens de cada vista sin un razonamiento geométrico explícito. Esto provoca deriva de objetos entre vistas, inconsistencia de profundidad y desalineación de texturas. Atribuimos estos fallos a dos deficiencias: la ausencia de un mecanismo explícito de comunicación entre vistas y la falta de un prior geométrico 3D. Sostenemos que resolver ambas simultáneamente es necesario y suficiente. Para abordar esto, presentamos PAIWorld, un marco que aumenta los modelos del mundo de difusión-transformer mediante tres componentes centrales: (1) Bloques de Atención Cruzada entre Vistas con Conciencia Geométrica, que establecen una vía explícita entre vistas; (2) Incrustación de Posición Rotatoria Geométrica, que codifica las direcciones de los rayos de cámara y las poses extrínsecas en el mecanismo de atención; y (3) Latent 3D-REPA, que destila características conscientes de 3D a partir de modelos fundacionales 3D congelados para garantizar la consistencia 3D. Construido sobre un modelo fundacional del mundo basado en DiT, PAIWorld logra una consistencia 3D multivista de vanguardia en benchmarks de manipulación robótica, ocupando el primer lugar en el ranking WorldArena y el segundo en el ranking AgiBot-Challenge2026, al tiempo que habilita aplicaciones downstream como la planificación basada en modelos, los modelos de acción del mundo y el post-entrenamiento de políticas multivista.

English

World foundation models (WFMs) are powerful simulators, yet they predominantly operate in a single-view setting and lack the multi-view 3D consistency required for robotic manipulation. While robotic systems rely on multiple cameras (egocentric, eye-to-hand, and wrist-mounted) for policy learning, current multi-view world models simply concatenate view tokens without explicit geometric reasoning. This causes cross-view object drift, depth inconsistency, and texture misalignment. We trace these failures to two deficiencies: the absence of an explicit inter-view communication mechanism and the lack of a 3D geometric prior. We argue that resolving both simultaneously is necessary and sufficient. To address this, we present PAIWorld, a framework that augments diffusion-transformer world models via three core components: (1) Geometry-Aware Cross-View Attention blocks that establish an explicit pathway across views, (2) Geometric Rotary Position Embedding that encodes camera ray directions and extrinsic poses into the attention mechanism, and (3) Latent 3D-REPA, which distills 3D-aware features from frozen 3D foundation models to ensure 3D consistency. Built upon a DiT-based world foundation model, PAIWorld achieves state-of-the-art multi-view 3D consistency on robotic manipulation benchmarks, ranking 1st on the WorldArena leaderboard and 2nd on the AgiBot-Challenge2026 leaderboard, while enabling downstream applications such as model-based planning, world action models, and multi-view policy post-training.