ChatPaper.aiChatPaper

Infinite-World: Escalonando Modelos de Mundo Interativos para Horizontes de 1000 Quadros via Memória Hierárquica Livre de Pose

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

February 2, 2026
Autores: Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
cs.AI

Resumo

Propomos o Infinite-World, um modelo de mundo interativo robusto capaz de manter memória visual coerente por mais de 1000 quadros em ambientes complexos do mundo real. Embora os modelos de mundo existentes possam ser otimizados eficientemente em dados sintéticos com ground-truth perfeito, eles carecem de um paradigma de treinamento eficaz para vídeos do mundo real devido a estimativas de pose ruidosas e à escassez de revisitações de pontos de vista. Para preencher essa lacuna, primeiro introduzimos um Compressor de Memória Livre de Pose Hierárquico (HPMC) que destila recursivamente latentes históricos em uma representação de orçamento fixo. Ao otimizar conjuntamente o compressor com a backbone generativa, o HPMC permite que o modelo ancorie autonomamente as gerações em um passado distante com custo computacional limitado, eliminando a necessidade de priores geométricos explícitos. Em segundo lugar, propomos um módulo de Rotulagem de Ação com Consciência de Incerteza que discretiza o movimento contínuo em uma lógica de três estados. Essa estratégia maximiza a utilização de dados de vídeo brutos, ao mesmo tempo que protege o espaço de ação determinístico de ser corrompido por trajetórias ruidosas, garantindo um aprendizado robusto de ação-resposta. Além disso, guiados por insights de um estudo piloto simplificado, empregamos uma Estratégia de Ajuste Fino com Revisitações Densas usando um conjunto de dados compacto de 30 minutos para ativar eficientemente as capacidades de fechamento de ciclo de longo alcance do modelo. Experimentos extensivos, incluindo métricas objetivas e estudos com usuários, demonstram que o Infinite-World alcança desempenho superior em qualidade visual, controlabilidade por ações e consistência espacial.
English
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.
PDF33February 7, 2026