ChatPaper.aiChatPaper

Infinite-World : Mise à l'échelle de modèles de monde interactifs vers des horizons de 1000 images grâce à une mémoire hiérarchique sans pose

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

February 2, 2026
papers.authors: Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
cs.AI

papers.abstract

Nous proposons Infinite-World, un modèle de monde interactif robuste capable de maintenir une mémoire visuelle cohérente sur plus de 1000 trames dans des environnements réels complexes. Bien que les modèles de monde existants puissent être optimisés efficacement sur des données synthétiques avec une vérité terrain parfaite, ils manquent d'un paradigme d'entraînement efficace pour les vidéos du monde réel en raison des estimations de pose bruitées et de la rareté des revisites de points de vue. Pour combler cette lacune, nous introduisons d'abord un Compresseur de Mémoire Hiérarchique Sans Pose (HPMC) qui distille récursivement les latents historiques en une représentation à budget fixe. En optimisant conjointement le compresseur avec le backbone génératif, HPMC permet au modèle d'ancrer autonome-ment les générations dans un passé lointain avec un coût computationnel borné, éliminant le besoin de priors géométriques explicites. Deuxièmement, nous proposons un module d'Étiquetage d'Actions Sensible à l'Incertitude qui discrétise le mouvement continu en une logique à trois états. Cette stratégie maximise l'utilisation des données vidéo brutes tout en protégeant l'espace d'actions déterministe de la corruption par des trajectoires bruitées, garantissant un apprentissage robuste de la réponse aux actions. De plus, guidés par les insights d'une étude préliminaire sur un cas simplifié, nous employons une Stratégie de Mise au Point sur Revisites Denses utilisant un jeu de données compact de 30 minutes pour activer efficacement les capacités de fermeture de boucle à longue portée du modèle. Des expériences approfondies, incluant des métriques objectives et des études utilisateurs, démontrent qu'Infinite-World atteint des performances supérieures en qualité visuelle, contrôlabilité des actions et cohérence spatiale.
English
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.
PDF32February 7, 2026