RELIC:長期的メモリを備えた対話型ビデオ世界モデル
RELIC: Interactive Video World Model with Long-Horizon Memory
December 3, 2025
著者: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI
要旨
真にインタラクティブな世界モデルには、3つの重要な要素が求められる:リアルタイムの長期間ストリーミング、一貫性のある空間メモリ、そして精密なユーザー制御である。しかし、既存の手法の多くはこれらの側面を個別にしか扱っておらず、3つを同時に達成することは極めて困難である。例えば、長期メモリ機構は往々にしてリアルタイム性能を低下させる。本論文では、これら3つの課題を統合的に解決するフレームワーク「RELIC」を提案する。単一の画像とテキスト記述を入力として、RELICはメモリを考慮した任意シーンの長時間探索をリアルタイムで実現する。最近の自己回帰的ビデオ拡散蒸留技術を基盤とし、本モデルは相対的な動作と絶対カメラ姿勢で符号化された高圧縮履歴潜在トークンをKVキャッシュ内に保持することで、長期的なメモリを表現する。このコンパクトでカメラを意識したメモリ構造は、暗黙的な3D一貫性コンテンツ検索を支援し、最小限の計算オーバーヘッドで長期的な一貫性を保証する。並行して、双方向の教師ビデオモデルをファインチューニングし、元々の5秒間の学習範囲を超えるシーケンスを生成可能にするとともに、新しいメモリ効率型の自己強制パラダイムを用いて因果的な生徒生成器へ変換する。これにより、長時間の教師データと生徒自身の長期自己展開の両方に対する全文脈蒸留を実現する。140億パラメータモデルとして実装され、厳選されたUnreal Engine描画データセットで学習されたRELICは、16FPSでのリアルタイム生成を達成し、従来研究と比較してより正確な動作追従、より安定した長時間ストリーミング、より堅牢な空間メモリ検索を実証する。これらの能力は、RELICが次世代インタラクティブ世界モデリングの強固な基盤となることを示している。
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.