Бесконечный мир: Масштабирование интерактивных мировых моделей до горизонтов в 1000 кадров с помощью позонезависимой иерархической памяти
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
February 2, 2026
Авторы: Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
cs.AI
Аннотация
Мы представляем Infinite-World — надежную интерактивную модель мира, способную поддерживать согласованную визуальную память на протяжении более 1000 кадров в сложных реальных условиях. Хотя существующие модели мира можно эффективно оптимизировать на синтетических данных с идеальной разметкой, им не хватает эффективной парадигмы обучения для видеозаписей реального мира из-за зашумленных оценок поз и недостатка повторных визитов в одни и те же точки обзора. Чтобы устранить этот разрыв, мы сначала представляем Иерархический компрессор памяти, не требующий данных о позе (Hierarchical Pose-free Memory Compressor, HPMC), который рекурсивно дистиллирует исторические латентные представления в представление с фиксированным бюджетом. Совместно оптимизируя компрессор с генеративной базовой моделью, HPMC позволяет модели автономно закреплять генерации в далеком прошлом при ограниченных вычислительных затратах, устраняя необходимость в явных геометрических priors. Во-вторых, мы предлагаем модуль маркировки действий с учетом неопределенности (Uncertainty-aware Action Labeling), который дискретизирует непрерывное движение в трехстабильную логику. Эта стратегия максимизирует использование исходных видеоданных, одновременно защищая детерминированное пространство действий от искажения зашумленными траекториями, обеспечивая надежное обучение реакции на действия. Кроме того, руководствуясь результатами пилотного модельного эксперимента, мы применяем стратегию тонкой настройки на плотных повторных визитах (Revisit-Dense Finetuning Strategy), используя компактный 30-минутный набор данных для эффективной активации способности модели к длительному замыканию петель. Многочисленные эксперименты, включая объективные метрики и пользовательские исследования, демонстрируют, что Infinite-World достигает превосходной производительности по визуальному качеству, управляемости действиями и пространственной согласованности.
English
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.