ChatPaper.aiChatPaper

Kairos: Ein nativer Weltmodell-Stack für Physikalische KI

Kairos: A Native World Model Stack for Physical AI

June 16, 2026
Autoren: Kairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang
cs.AI

Zusammenfassung

Weltmodelle wandeln sich von passiven visuellen Generatoren zu grundlegender, betrieblicher Infrastruktur für Physische KI: Sie müssen nativ Weltwissen aus heterogenen Erfahrungen erwerben, persistente Zustände über lange Horizonte hinweg aufrechterhalten und effizient innerhalb realer Einsatzbeschränkungen ausgeführt werden. Wir stellen Kairos vor, einen nativen Weltmodell-Stack, der um diese Anforderungen herum entwickelt wurde. (1) Kairos lernt die Welt, indem es ein natives Vorab-Trainingsparadigma einführt, das durch ein Cross-Embodiment-Datencurriculum gesteuert wird, welches Open-World-Videos, menschliche Verhaltensdaten und Roboterinteraktionen in einen fortschreitenden Entwicklungspfad organisiert. (2) Kairos erhält die Welt durch einheitliches Weltverständnis, -generierung und -vorhersage innerhalb einer nativen einheitlichen Architektur, die mit Hybrider Linearer Temporaler Aufmerksamkeit ausgestattet ist, wobei eine Aufmerksamkeit mit gleitendem Fenster lokale Dynamiken erfasst, dilatierte gleitende Fenster mittlere Abhängigkeiten erfassen und gegatete lineare Aufmerksamkeit einen persistenten globalen Speicher aufrechterhält. Wir stellen formale theoretische Grenzen auf, die zeigen, dass diese zeitliche Faktorisierung die Fehlerakkumulation strikt begrenzt und mathematisch die Zustandsfortpflanzung über erweiterte Horizonte hinweg garantiert. (3) Kairos führt die Welt aus, indem es ein einsatzbewusstes System-Co-Design integriert, um eine latenzarme Rollout-Generierung auf Server- und Verbraucherhardware für reale Beobachtungs-Aktions-Rückkopplungsschleifen zu unterstützen. Experimente mit verkörperten Weltmodell-, Langfrist- und Aktionsstrategie-Benchmarks zeigen, dass Kairos Spitzenleistungen erreicht und gleichzeitig einen starken Kompromiss zwischen Effizienz und Leistungsfähigkeit bietet. Zusammen positionieren diese Ergebnisse Kairos als kohärente operative Grundlage für zukünftige, sich selbst entwickelnde physische Intelligenz.
English
World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.