ChatPaper.aiChatPaper

카이로스: 물리적 AI를 위한 네이티브 세계 모델 스택

Kairos: A Native World Model Stack for Physical AI

June 16, 2026
저자: Kairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang
cs.AI

초록

세계 모델은 수동적 시각 생성기에서 물리적 AI를 위한 기초적이고 운영 가능한 인프라로 전환 중이다. 이는 이질적 경험으로부터 세계 지식을 본질적으로 획득하고, 장기적 지평에 걸쳐 지속적인 상태를 유지하며, 실제 배포 제약 조건 내에서 효율적으로 실행되어야 한다. 우리는 이러한 요구사항을 중심으로 설계된 네이티브 세계 모델 스택인 Kairos를 소개한다. (1) Kairos는 교차 구현 데이터 커리큘럼에 의해 규율되는 네이티브 사전 학습 패러다임을 개척하여 세계를 학습한다. 이는 오픈월드 비디오, 인간 행동 데이터, 로봇 상호작용을 점진적 발달 경로로 조직화한다. (2) Kairos는 하이브리드 선형 시간 어텐션을 갖춘 네이티브 통합 아키텍처 내에서 통합된 세계 이해, 생성, 예측을 통해 세계를 유지한다. 여기서 슬라이딩 윈도 어텐션은 국소적 동역학을 포착하고, 확장된 슬라이딩 윈도는 중간 범위 의존성을 포착하며, 게이트 선형 어텐션은 지속적인 전역 메모리를 유지한다. 우리는 이러한 시간적 인수분해가 오류 누적을 엄격히 제한함을 증명하는 형식적 이론적 한계를 설정하며, 확장된 지평에 걸친 상태 전파를 수학적으로 보장한다. (3) Kairos는 실제 관찰-행동-피드백 루프에 대해 서버 및 소비자급 하드웨어에서 저지연 롤아웃 생성을 지원하는 배포 인식 시스템 공동 설계를 통합하여 세계를 실행한다. 체화된 세계 모델, 장기 지평, 행동 정책 벤치마크에 대한 실험은 Kairos가 강력한 효율성-능력 절충을 제공하면서 최고 수준의 성능을 달성함을 보여준다. 종합적으로, 이러한 결과는 Kairos를 미래의 자기 진화적 물리적 지능을 위한 통합된 운영 기반으로 자리매김한다.
English
World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.