ChatPaper.aiChatPaper

無限世界:ポーズフリー階層メモリによるインタラクティブ世界モデルの1000フレーム時間軸へのスケーリング

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

February 2, 2026
著者: Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
cs.AI

要旨

我々はInfinite-Worldを提案する。これは複雑な実世界環境において1000フレーム以上にわたりコヒーレントな視覚的メモリを維持可能な、頑健なインタラクティブ世界モデルである。既存の世界モデルは完全なグラウンドトゥルースを持つ合成データでは効率的に最適化可能だが、ノイズの多い姿勢推定と視点再訪の不足により、実世界動画に対する効果的な学習パラダイムを欠いている。この課題を解決するため、我々はまず、階層的姿勢非依存メモリ圧縮器(HPMC)を導入する。HPMCは履歴潜在変数を固定バジェット表現へ再帰的に蒸留し、生成バックボーンとの共同最適化により、幾何学的事前情報を必要とせず、計算コストを限定した遠隔過去への生成的アンカリングを実現する。第二に、連続運動を三値論理に離散化する不確実性考慮行動ラベリングモジュールを提案する。この戦略により、生動画データの活用を最大化しつつ、ノイジーな軌跡による決定論的行動空間の汚染を防ぎ、頑健な行動応答学習を保証する。さらに、予備的なトイスタディからの知見に基づき、30分のコンパクトなデータセットを用いた再訪集中ファインチューニング戦略を採用し、モデルの長距離ループ閉鎖能力を効率的に活性化する。客観的指標とユーザスタディを含む大規模実験により、Infinite-Worldが視覚品質、行動制御性、空間一貫性において優れた性能を達成することを実証する。
English
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.
PDF32February 7, 2026