Kairos: Нативный стек моделей мира для физического ИИ

Аннотация

Мировые модели превращаются из пассивных генераторов визуальных данных в фундаментальную, операционную инфраструктуру для физического ИИ: они должны естественным образом усваивать знания о мире из гетерогенного опыта, поддерживать постоянные состояния на протяжении длительных горизонтов и эффективно функционировать в условиях реальных ограничений развертывания. Мы представляем Kairos — стек нативных мировых моделей, спроектированный с учетом этих требований. (1) Kairos познает мир, внедряя нативную парадигму предварительного обучения, управляемую перекрестно-воплощенным учебным планом данных, который организует видеоданные открытого мира, данные о поведении человека и роботизированные взаимодействия в прогрессивную траекторию развития. (2) Kairos поддерживает мир с помощью единого понимания, генерации и прогнозирования в рамках нативной унифицированной архитектуры, оснащенной гибридным линейным темпоральным вниманием, где внимание со скользящим окном фиксирует локальную динамику, дилатированные скользящие окна — зависимости средней дальности, а стробированное линейное внимание поддерживает постоянную глобальную память. Мы устанавливаем формальные теоретические границы, демонстрирующие, что такая факторизация временных зависимостей строго ограничивает накопление ошибок, математически гарантируя распространение состояний на расширенных горизонтах. (3) Kairos запускает мир, включая совместное проектирование системы с учетом развертывания для поддержки низколатентной генерации развертываний на серверном и потребительском оборудовании в циклах наблюдения-действия-обратной связи реального мира. Эксперименты на тестах воплощенных мировых моделей, длинных горизонтов и политик действий показывают, что Kairos достигает производительности топ-уровня, предлагая при этом сильный компромисс между эффективностью и возможностями. В совокупности эти результаты позиционируют Kairos как целостную эксплуатационную основу для будущего саморазвивающегося физического интеллекта.

English

World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.