ChatPaper.aiChatPaper

RELIC : Modèle de monde vidéo interactif avec mémoire à long horizon

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
papers.authors: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

papers.abstract

Un modèle mondial véritablement interactif nécessite trois ingrédients clés : un streaming longue durée en temps réel, une mémoire spatiale cohérente et un contrôle utilisateur précis. Cependant, la plupart des approches existantes n'abordent qu'un seul de ces aspects de manière isolée, car atteindre les trois simultanément est extrêmement difficile – par exemple, les mécanismes de mémoire à long terme dégradent souvent les performances en temps réel. Dans ce travail, nous présentons RELIC, un cadre unifié qui relève ces trois défis conjointement. À partir d'une seule image et d'une description textuelle, RELIC permet une exploration avec mémoire et de longue durée de scènes arbitraires en temps réel. Construit sur des techniques récentes de distillation de diffusion vidéo autorégressive, notre modèle représente la mémoire à long horizon en utilisant des jetons latents historiques hautement compressés, encodés avec des actions relatives et des poses de caméra absolues dans le cache KV. Cette structure de mémoire compacte et consciente de la caméra supporte une récupération de contenu implicite cohérente en 3D et assure une cohérence à long terme avec une surcharge computationnelle minimale. En parallèle, nous affinons un modèle enseignant vidéo bidirectionnel pour générer des séquences au-delà de son horizon d'entraînement initial de 5 secondes, et le transformons en un générateur étudiant causal en utilisant un nouveau paradigme d'auto-forçage économe en mémoire qui permet une distillation en contexte complet sur de longues séquences enseignantes ainsi que sur de longues auto-générations étudiantes. Implémenté sous la forme d'un modèle de 14 milliards de paramètres et entraîné sur un jeu de données soigneusement sélectionné rendu avec Unreal Engine, RELIC atteint une génération en temps réel à 16 FPS tout en démontrant un suivi d'action plus précis, un streaming longue durée plus stable et une récupération de mémoire spatiale plus robuste que les travaux antérieurs. Ces capacités établissent RELIC comme une base solide pour la prochaine génération de modélisation mondiale interactive.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF121December 5, 2025