Kairos: Un Stack de Modelo del Mundo Nativo para IA Física
Kairos: A Native World Model Stack for Physical AI
June 16, 2026
Autores: Kairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang
cs.AI
Resumen
Los modelos del mundo están evolucionando de generadores visuales pasivos a infraestructuras operativas fundamentales para la IA Física: deben adquirir conocimiento del mundo de forma nativa a partir de experiencia heterogénea, mantener estados persistentes en horizontes prolongados y ejecutarse eficientemente dentro de las restricciones del despliegue real. Presentamos Kairos, una pila nativa de modelos del mundo diseñada en torno a estos requisitos. (1) Kairos aprende el mundo mediante un paradigma pionero de preentrenamiento nativo gobernado por un currículo de datos entre cuerpos, que organiza vídeos del mundo abierto, datos de comportamiento humano e interacciones robóticas en una trayectoria de desarrollo progresiva. (2) Kairos mantiene el mundo mediante una comprensión, generación y predicción unificadas del mundo dentro de una arquitectura nativa unificada equipada con Atención Temporal Lineal Híbrida, donde la atención de ventana deslizante captura la dinámica local, las ventanas deslizantes dilatadas capturan dependencias de rango medio y la atención lineal con puerta mantiene una memoria global persistente. Establecemos cotas teóricas formales que demuestran que esta factorización temporal limita estrictamente la acumulación de errores, garantizando matemáticamente la propagación del estado a través de horizontes extendidos. (3) Kairos ejecuta el mundo incorporando un codiseño de sistema consciente del despliegue para soportar la generación de despliegues de baja latencia en hardware de servidor y de consumo para bucles reales de observación-acción-retroalimentación. Los experimentos en modelos del mundo encarnados, horizontes prolongados y puntos de referencia de políticas de acción muestran que Kairos alcanza un rendimiento de primer nivel al tiempo que ofrece un sólido equilibrio entre eficiencia y capacidad. En conjunto, estos resultados posicionan a Kairos como una base operativa cohesiva para la futura inteligencia física auto evolutiva.
English
World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.