무한 세계: 포즈 없는 계층적 메모리를 통한 1000프레임 수준의 대화형 세계 모델 확장
Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory
February 2, 2026
저자: Ruiqi Wu, Xuanhua He, Meng Cheng, Tianyu Yang, Yong Zhang, Zhuoliang Kang, Xunliang Cai, Xiaoming Wei, Chunle Guo, Chongyi Li, Ming-Ming Cheng
cs.AI
초록
본 연구에서는 복잡한 실제 환경에서 1000+ 프레임에 걸쳐 일관된 시각적 메모리를 유지할 수 있는 강력한 상호작용형 월드 모델인 Infinite-World를 제안한다. 기존 월드 모델은 완벽한 실측 데이터가 있는 합성 데이터에서 효율적으로 최적화될 수 있지만, 노이즈가 포함된 포즈 추정과 시점 재방문 데이터의 부족으로 인해 실제 영상에 대한 효과적인 훈련 패러다임이 부재하다. 이러한 격차를 해결하기 위해, 우리는 먼저 고정된 예산의 표현으로 역사적 잠재 변수를 재귀적으로 정제하는 계층적 포즈 무관 메모리 압축기(HPMC)를 도입한다. HPMC를 생성 백본과 공동 최적화함으로써, 모델이 명시적인 기하학적 사전 정보 없이도 제한된 계산 비용으로 먼 과거의 생성 결과를 자율적으로 고정할 수 있게 된다. 둘째, 연속적인 동작을 3가지 상태 논리로 이산화하는 불확실성 인식 동작 라벨링 모듈을 제안한다. 이 전략은 원시 영상 데이터의 활용을 극대화하면서도 노이즈가 많은 궤적으로 인해 결정론적 동작 공간이 오염되는 것을 방지하여 강력한 동작-응답 학습을 보장한다. 또한, 예비 토이 스터디에서 도출된 통찰을 바탕으로, 30분 분량의 소규모 데이터셋을 활용한 재방문-집중 미세조정 전략을 통해 모델의 장거리 루프 폐쇄 능력을 효율적으로 활성화한다. 객관적 메트릭과 사용자 연구를 포함한 폭넓은 실험을 통해 Infinite-World가 시각적 품질, 동작 제어성, 공간 일관성에서 우수한 성능을 달성함을 입증한다.
English
We propose Infinite-World, a robust interactive world model capable of maintaining coherent visual memory over 1000+ frames in complex real-world environments. While existing world models can be efficiently optimized on synthetic data with perfect ground-truth, they lack an effective training paradigm for real-world videos due to noisy pose estimations and the scarcity of viewpoint revisits. To bridge this gap, we first introduce a Hierarchical Pose-free Memory Compressor (HPMC) that recursively distills historical latents into a fixed-budget representation. By jointly optimizing the compressor with the generative backbone, HPMC enables the model to autonomously anchor generations in the distant past with bounded computational cost, eliminating the need for explicit geometric priors. Second, we propose an Uncertainty-aware Action Labeling module that discretizes continuous motion into a tri-state logic. This strategy maximizes the utilization of raw video data while shielding the deterministic action space from being corrupted by noisy trajectories, ensuring robust action-response learning. Furthermore, guided by insights from a pilot toy study, we employ a Revisit-Dense Finetuning Strategy using a compact, 30-minute dataset to efficiently activate the model's long-range loop-closure capabilities. Extensive experiments, including objective metrics and user studies, demonstrate that Infinite-World achieves superior performance in visual quality, action controllability, and spatial consistency.