Infinite-World: Scalabilità di Modelli di Mondi Interattivi fino a Orizzonti di 1000 Frame tramite Memoria Gerarchica Senza Posa

Abstract

Proponiamo Infinite-World, un modello di mondo interattivo e robusto in grado di mantenere una memoria visiva coerente per oltre 1000 fotogrammi in ambienti complessi del mondo reale. Sebbene i modelli di mondo esistenti possano essere ottimizzati efficientemente su dati sintetici con ground-truth perfetto, mancano di un paradigma di addestramento efficace per video del mondo reale a causa di stime della posa rumorose e della scarsità di rivisitazioni del punto di vista. Per colmare questa lacuna, introduciamo innanzitutto un Compressore di Memoria Gerarchico senza Posa (HPMC) che distilla ricorsivamente i latenti storici in una rappresentazione a budget fisso. Ottimizzando congiuntamente il compressore con il backbone generativo, HPMC consente al modello di ancorare autonomamente le generazioni in un passato distante con un costo computazionale limitato, eliminando la necessità di priori geometrici espliciti. In secondo luogo, proponiamo un modulo di Etichettatura delle Azioni Consapevole dell'Incertezza che discretizza il moto continuo in una logica a tre stati. Questa strategia massimizza l'utilizzo dei dati video grezzi proteggendo al contempo lo spazio d'azione deterministico dalla corruzione da parte di traiettorie rumorose, garantendo un apprendimento robusto dell'azione-risposta. Inoltre, guidati da intuizioni di uno studio pilota preliminare, impieghiamo una Strategia di Fine-tuning Denso di Rivisitazione utilizzando un dataset compatto di 30 minuti per attivare efficientemente le capacità di chiusura del ciclo a lungo raggio del modello. Esperimenti estensivi, inclusi metriche oggettive e studi utente, dimostrano che Infinite-World raggiunge prestazioni superiori in termini di qualità visiva, controllabilità dell'azione e coerenza spaziale.

English

We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.

Infinite-World: Scalabilità di Modelli di Mondi Interattivi fino a Orizzonti di 1000 Frame tramite Memoria Gerarchica Senza Posa

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Abstract

Support