Kairos: Uma Pilha de Modelo de Mundo Nativo para IA Física

Resumo

Os modelos de mundo estão em transição de geradores visuais passivos para infraestrutura operacional fundamental para a IA Física: eles devem adquirir nativamente conhecimento do mundo a partir de experiências heterogêneas, manter estados persistentes ao longo de horizontes temporais extensos e executar de forma eficiente dentro das restrições reais de implantação. Apresentamos o Kairos, uma pilha nativa de modelos de mundo projetada em torno desses requisitos. (1) O Kairos aprende o mundo ao introduzir um Paradigma de Pré-treinamento Nativo governado por um Currículo de Dados Inter-corporais, que organiza vídeos de mundo aberto, dados comportamentais humanos e interações robóticas em uma trajetória progressiva de desenvolvimento. (2) O Kairos mantém o mundo por meio de compreensão, geração e previsão unificadas do mundo dentro de uma Arquitetura Nativa Unificada equipada com Atenção Temporal Linear Híbrida, onde a atenção por janela deslizante captura dinâmicas locais, janelas deslizantes dilatadas capturam dependências de médio alcance e a atenção linear com portas mantém memória global persistente. Estabelecemos limites teóricos formais demonstrando que essa fatoração temporal limita estritamente o acúmulo de erros, garantindo matematicamente a propagação de estado por horizontes estendidos. (3) O Kairos executa o mundo ao incorporar um Coprojeto de Sistema Consciente da Implantação para suportar geração de rollouts de baixa latência em hardware de servidor e de consumo para laços reais de observação-ação-feedback. Experimentos em benchmarks de modelo de mundo incorporado, horizonte longo e política de ação mostram que o Kairos atinge desempenho de alto nível enquanto oferece um forte equilíbrio entre eficiência e capacidade. Juntos, esses resultados posicionam o Kairos como uma base operacional coesa para a futura inteligência física auto-evolutiva.

English

World models are transitioning from passive visual generators to foundational, operational infrastructure for Physical AI: they must natively acquire world knowledge from heterogeneous experience, maintain persistent states over long horizons, and execute efficiently within real deployment constraints. We introduce Kairos, a native world model stack designed around these requirements. (1) Kairos learns the world by pioneering a Native Pre-training Paradigm governed by a Cross-Embodiment Data Curriculum, which organizes open-world videos, human behavioral data, and robot interactions into a progressive developmental pathway. (2) Kairos maintains the world by unified world understanding, generation, and prediction within a Native Unified Architecture equipped with Hybrid Linear Temporal Attention, where sliding-window attention captures local dynamics, dilated sliding windows capture mid-range dependencies, and gated linear attention maintains persistent global memory. We establish formal theoretical bounds demonstrating that this temporal factorization strictly limits error accumulation, mathematically guaranteeing state propagation across extended horizons. (3) Kairos runs the world by incorporating a Deployment-Aware System Co-Design to support low-latency rollout generation on server and consumer-grade hardware for real-world observation-action-feedback loops. Experiments on embodied world-model, long-horizon, and action-policy benchmarks show that Kairos achieves top level performance while offering a strong efficiency-capability trade-off. Together, these results position Kairos as a cohesive operational foundation for future self-evolving physical intelligence.