Kairos: Een native wereldmodel-stack voor fysieke AI

Samenvatting

Wereldmodellen maken een overgang van passieve visuele generatoren naar een fundamentele, operationele infrastructuur voor Fysieke AI: ze moeten wereldkennis van nature verwerven uit heterogene ervaringen, persistente toestanden handhaven over lange horizonnen en efficiënt functioneren binnen reële implementatiebeperkingen. We introduceren Kairos, een native wereldmodel-stack die rond deze vereisten is ontworpen. (1) Kairos leert de wereld door baanbrekend werk met een Native Pre-training Paradigma dat wordt geregeerd door een Cross-Embodiment Data Curriculum, dat open-wereldvideo's, menselijk gedragsdata en robotinteracties organiseert in een progressief ontwikkelingspad. (2) Kairos onderhoudt de wereld door een verenigd wereldbegrip, generatie en voorspelling binnen een Native Unified Architectuur uitgerust met Hybride Lineaire Temporele Aandacht, waarbij schuivend-vensteraandacht lokale dynamiek vastlegt, opgerekte schuivende vensters middellangeafstandsafhankelijkheden vastleggen en gegate lineaire aandacht een persistent globaal geheugen onderhoudt. We stellen formele theoretische grenzen vast die aantonen dat deze temporele factorisatie foutaccumulatie strikt beperkt, wat wiskundig de toestandsvoortplanting over uitgebreide horizonnen garandeert. (3) Kairos runt de wereld door een Deployment-Aware System Co-Design te integreren om low-latency rollout-generatie op server- en consumentenhardware te ondersteunen voor reële observatie-actie-feedbacklussen. Experimenten op belichaamde wereldmodel-, lange-horizon- en actie-beleidsbenchmarks tonen aan dat Kairos topniveau prestaties behaalt terwijl het een sterke efficiëntie-capaciteitsafweging biedt. Samen positioneren deze resultaten Kairos als een samenhangende operationele basis voor toekomstige zelf-evoluerende fysieke intelligentie.

English

World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.