PAIWorld : un modèle de fondation du monde cohérent en 3D pour la manipulation robotique

Résumé

Les modèles fondamentaux du monde (WFM) sont de puissants simulateurs, mais ils fonctionnent principalement dans un cadre mono-vue et ne possèdent pas la cohérence 3D multi-vue requise pour la manipulation robotique. Alors que les systèmes robotiques s'appuient sur plusieurs caméras (égocentrique, œil-main et montée au poignet) pour l'apprentissage de politiques, les modèles du monde multi-vue actuels se contentent de concaténer les jetons de vue sans raisonnement géométrique explicite. Cela entraîne une dérive des objets entre les vues, une incohérence de profondeur et un désalignement de texture. Nous attribuons ces échecs à deux lacunes : l'absence d'un mécanisme de communication inter-vue explicite et le manque d'un a priori géométrique 3D. Nous soutenons que résoudre ces deux problèmes simultanément est à la fois nécessaire et suffisant. Pour y remédier, nous présentons PAIWorld, un cadre qui améliore les modèles du monde de type transformateur-diffusion via trois composants principaux : (1) des blocs d'attention cross-vue sensibles à la géométrie, qui établissent une voie explicite entre les vues, (2) un encodage de position rotatoire géométrique, qui encode les directions des rayons de la caméra et les poses extrinsèques dans le mécanisme d'attention, et (3) le REPA 3D latent, qui distille des caractéristiques 3D à partir de modèles fondamentaux 3D gelés pour garantir la cohérence 3D. Construit sur un modèle fondamental du monde basé sur DiT, PAIWorld atteint une cohérence 3D multi-vue de pointe sur les benchmarks de manipulation robotique, se classant 1er au classement WorldArena et 2ème au classement AgiBot-Challenge2026, tout en permettant des applications en aval telles que la planification basée sur modèle, les modèles d'action du monde et le post-entraînement de politiques multi-vue.

English

World foundation models (WFMs) are powerful simulators, yet they predominantly operate in a single-view setting and lack the multi-view 3D consistency required for robotic manipulation. While robotic systems rely on multiple cameras (egocentric, eye-to-hand, and wrist-mounted) for policy learning, current multi-view world models simply concatenate view tokens without explicit geometric reasoning. This causes cross-view object drift, depth inconsistency, and texture misalignment. We trace these failures to two deficiencies: the absence of an explicit inter-view communication mechanism and the lack of a 3D geometric prior. We argue that resolving both simultaneously is necessary and sufficient. To address this, we present PAIWorld, a framework that augments diffusion-transformer world models via three core components: (1) Geometry-Aware Cross-View Attention blocks that establish an explicit pathway across views, (2) Geometric Rotary Position Embedding that encodes camera ray directions and extrinsic poses into the attention mechanism, and (3) Latent 3D-REPA, which distills 3D-aware features from frozen 3D foundation models to ensure 3D consistency. Built upon a DiT-based world foundation model, PAIWorld achieves state-of-the-art multi-view 3D consistency on robotic manipulation benchmarks, ranking 1st on the WorldArena leaderboard and 2nd on the AgiBot-Challenge2026 leaderboard, while enabling downstream applications such as model-based planning, world action models, and multi-view policy post-training.