PAIWorld: 3D-согласованная фундаментальная модель мира для роботизированной манипуляции

Аннотация

Фундаментальные модели мира (WFM) представляют собой мощные симуляторы, однако в основном они функционируют в одновидовом режиме и лишены многовидовой 3D-согласованности, необходимой для роботизированного манипулирования. Хотя робототехнические системы полагаются на несколько камер (эгоцентрические, типа «глаз–рука» и закреплённые на запястье) для обучения политик, современные многовидовые мировые модели просто конкатенируют токены видов без явного геометрического обоснования. Это приводит к дрейфу объектов между видами, несогласованности глубины и нарушению выравнивания текстур. Мы связываем эти неудачи с двумя недостатками: отсутствием явного механизма межвидовой коммуникации и отсутствием 3D-геометрического априорного знания. Мы утверждаем, что устранение обоих недостатков одновременно является необходимым и достаточным условием. Для решения этой проблемы мы представляем PAIWorld — фреймворк, расширяющий мировые модели на основе diffusion-transformer с помощью трёх ключевых компонентов: (1) блоков внимания с учётом геометрии между видами (Geometry-Aware Cross-View Attention), которые устанавливают явный путь взаимодействия между видами; (2) геометрического вращательного позиционного кодирования (Geometric Rotary Position Embedding), встраивающего направления лучей камер и внешние позы в механизм внимания; и (3) латентного 3D-REPA, который извлекает 3D-информированные признаки из замороженных 3D-фундаментальных моделей для обеспечения 3D-согласованности. Основанный на мировой фундаментальной модели типа DiT, PAIWorld достигает передовой многовидовой 3D-согласованности на эталонах роботизированного манипулирования, занимая 1-е место в рейтинге WorldArena и 2-е место в рейтинге AgiBot-Challenge2026, а также обеспечивая такие прикладные возможности, как планирование на основе модели, мировые модели действий и пост-обучение многовидовых политик.

English

World foundation models (WFMs) are powerful simulators, yet they predominantly operate in a single-view setting and lack the multi-view 3D consistency required for robotic manipulation. While robotic systems rely on multiple cameras (egocentric, eye-to-hand, and wrist-mounted) for policy learning, current multi-view world models simply concatenate view tokens without explicit geometric reasoning. This causes cross-view object drift, depth inconsistency, and texture misalignment. We trace these failures to two deficiencies: the absence of an explicit inter-view communication mechanism and the lack of a 3D geometric prior. We argue that resolving both simultaneously is necessary and sufficient. To address this, we present PAIWorld, a framework that augments diffusion-transformer world models via three core components: (1) Geometry-Aware Cross-View Attention blocks that establish an explicit pathway across views, (2) Geometric Rotary Position Embedding that encodes camera ray directions and extrinsic poses into the attention mechanism, and (3) Latent 3D-REPA, which distills 3D-aware features from frozen 3D foundation models to ensure 3D consistency. Built upon a DiT-based world foundation model, PAIWorld achieves state-of-the-art multi-view 3D consistency on robotic manipulation benchmarks, ranking 1st on the WorldArena leaderboard and 2nd on the AgiBot-Challenge2026 leaderboard, while enabling downstream applications such as model-based planning, world action models, and multi-view policy post-training.