Kairos : une pile native de modèles du monde pour l'IA physique

Résumé

Les modèles du monde passent de générateurs visuels passifs à une infrastructure opérationnelle fondamentale pour l'IA physique : ils doivent acquérir de manière native des connaissances sur le monde à partir d'expériences hétérogènes, maintenir des états persistants sur de longs horizons et s'exécuter efficacement dans les contraintes réelles de déploiement. Nous présentons Kairos, une pile de modèles du monde native conçue autour de ces exigences. (1) Kairos apprend le monde en inaugurant un paradigme de pré-entraînement natif régi par un curriculum de données inter-embodiments, qui organise les vidéos du monde ouvert, les données comportementales humaines et les interactions robotiques en un parcours développemental progressif. (2) Kairos maintient le monde grâce à une compréhension, génération et prédiction unifiées du monde au sein d'une architecture native unifiée dotée d'une attention temporelle linéaire hybride, où l'attention par fenêtre glissante capture la dynamique locale, les fenêtres glissantes dilatées capturent les dépendances à moyenne portée, et l'attention linéaire à porte maintient une mémoire globale persistante. Nous établissons des bornes théoriques formelles démontrant que cette factorisation temporelle limite strictement l'accumulation d'erreurs, garantissant mathématiquement la propagation d'état sur des horizons étendus. (3) Kairos exécute le monde en intégrant une co-conception système adaptée au déploiement pour prendre en charge la génération de roulage à faible latence sur du matériel serveur et grand public pour les boucles d'observation-action-retour d'information réelles. Les expériences sur les benchmarks de modèles du monde incarnés, de longs horizons et de politiques d'action montrent que Kairos atteint un niveau de performance de pointe tout en offrant un solide compromis efficacité-capacité. Ensemble, ces résultats positionnent Kairos comme une base opérationnelle cohérente pour la future intelligence physique auto-évolutive.

English

World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.