Kairos: 物理AIのためのネイティブ世界モデルスタック
Kairos: A Native World Model Stack for Physical AI
June 16, 2026
著者: Kairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang
cs.AI
要旨
世界モデルは、受動的な視覚生成器から物理AIの基盤的かつ運用可能なインフラへと移行しつつある。それらは、異種の経験からネイティブに世界知識を獲得し、長期間にわたって持続的な状態を維持し、実際の展開制約の中で効率的に実行されなければならない。本稿では、これらの要件を中心に設計されたネイティブな世界モデルスタック「Kairos」を紹介する。(1) Kairosは、クロス・エンボディメント・データカリキュラム(異なる身体性にまたがるデータカリキュラム)に基づくネイティブ事前学習パラダイムを開拓することで世界を学習する。このカリキュラムは、オープンワールドビデオ、人間の行動データ、ロボットインタラクションを、段階的な発達経路に整理する。(2) Kairosは、ハイブリッド線形時間的注意機構を備えたネイティブ統合アーキテクチャによって、世界の統一的な理解、生成、予測を通じて世界を維持する。ここでは、スライディングウィンドウ注意機構が局所的なダイナミクスを捉え、拡張スライディングウィンドウが中距離の依存関係を捉え、ゲート付き線形注意機構が持続的な大域的記憶を保持する。我々は、この時間的分割が誤差の蓄積を厳密に制限し、長期にわたる状態伝搬を数学的に保証することを示す形式的な理論的限界を確立する。(3) Kairosは、デプロイメントを考慮したシステム共同設計を組み込むことで世界を実行し、実世界の観測・行動・フィードバックループにおいて、サーバーおよびコンシューマーグレードのハードウェアで低遅延のロールアウト生成をサポートする。身体性世界モデル、長期 horizons、行動ポリシーのベンチマークにおける実験結果は、Kairosが強力な効率と性能のトレードオフを提供しながら、最高レベルの性能を達成することを示している。これらの結果は総合的に、Kairosを将来の自己進化型物理インテリジェンスのための統合的運用基盤として位置づける。
English
World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.