PAIWorld: Ein 3D-konsistentes Welt-Fundamentmodell für die Robotermanipulation

Zusammenfassung

Weltfundamentmodelle (World Foundation Models, WFMs) sind leistungsstarke Simulatoren, arbeiten jedoch überwiegend im Einzelansichtsmodus und entbehren der für die Robotermanipulation erforderlichen Multi-View-3D-Konsistenz. Obwohl Robotersysteme für das Policylernen auf mehrere Kameras (egozentrisch, Auge-zu-Hand und am Handgelenk montiert) angewiesen sind, verknüpfen aktuelle Multi-View-Weltmodelle lediglich die Ansichts-Token ohne explizite geometrische Argumentation. Dies führt zu ansichtübergreifendem Objektdrift, Tiefeninkonsistenz und Texturfehlausrichtung. Wir führen diese Fehler auf zwei Defizite zurück: das Fehlen eines expliziten ansichtübergreifenden Kommunikationsmechanismus und das Fehlen eines 3D-geometrischen Priors. Wir argumentieren, dass die gleichzeitige Behebung beider Defizite notwendig und ausreichend ist. Um dies zu adressieren, stellen wir PAIWorld vor, ein Framework, das Diffusions-Transformer-Weltmodelle durch drei Kernkomponenten erweitert: (1) Geometriebewusste ansichtübergreifende Aufmerksamkeitsblöcke (Geometry-Aware Cross-View Attention blocks), die einen expliziten Pfad zwischen den Ansichten herstellen, (2) Geometrische Rotary-Positionseinbettung (Geometric Rotary Position Embedding), die Kamerastrahlenrichtungen und extrinsische Posen in den Aufmerksamkeitsmechanismus kodiert, und (3) Latente 3D-REPA (Latent 3D-REPA), die 3D-bewusste Merkmale aus eingefrorenen 3D-Fundamentmodellen destilliert, um 3D-Konsistenz zu gewährleisten. Aufbauend auf einem DiT-basierten Weltfundamentmodell erreicht PAIWorld modernste Multi-View-3D-Konsistenz bei Robotermanipulationsbenchmarks, belegt Platz 1 auf der WorldArena-Rangliste und Platz 2 auf der AgiBot-Challenge2026-Rangliste, und ermöglicht nachgelagerte Anwendungen wie modellbasierte Planung, Welt-Aktionsmodelle und Multi-View-Policy-Post-Training.

English

World foundation models (WFMs) are powerful simulators, yet they predominantly operate in a single-view setting and lack the multi-view 3D consistency required for robotic manipulation. While robotic systems rely on multiple cameras (egocentric, eye-to-hand, and wrist-mounted) for policy learning, current multi-view world models simply concatenate view tokens without explicit geometric reasoning. This causes cross-view object drift, depth inconsistency, and texture misalignment. We trace these failures to two deficiencies: the absence of an explicit inter-view communication mechanism and the lack of a 3D geometric prior. We argue that resolving both simultaneously is necessary and sufficient. To address this, we present PAIWorld, a framework that augments diffusion-transformer world models via three core components: (1) Geometry-Aware Cross-View Attention blocks that establish an explicit pathway across views, (2) Geometric Rotary Position Embedding that encodes camera ray directions and extrinsic poses into the attention mechanism, and (3) Latent 3D-REPA, which distills 3D-aware features from frozen 3D foundation models to ensure 3D consistency. Built upon a DiT-based world foundation model, PAIWorld achieves state-of-the-art multi-view 3D consistency on robotic manipulation benchmarks, ranking 1st on the WorldArena leaderboard and 2nd on the AgiBot-Challenge2026 leaderboard, while enabling downstream applications such as model-based planning, world action models, and multi-view policy post-training.