ChatPaper.aiChatPaper

RELIC: Interactief Videowereldmodel met Langetermijngeheugen

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
Auteurs: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

Samenvatting

Een echt interactief wereldmodel vereist drie essentiële componenten: realtime streaming op lange termijn, consistent ruimtelijk geheugen en precieze gebruikerscontrole. De meeste bestaande methoden behandelen echter slechts één van deze aspecten afzonderlijk, aangezien het gelijktijdig bereiken van alle drie zeer uitdagend is – bijvoorbeeld gaan langetermijngeheugenmechanismen vaak ten koste van de realtime-prestaties. In dit werk presenteren we RELIC, een uniform raamwerk dat deze drie uitdagingen gezamenlijk aanpakt. Op basis van een enkele afbeelding en een tekstbeschrijving stelt RELIC geheugenbewuste, langdurige verkenning van willekeurige scènes in realtime mogelijk. Gebouwd op recente autoregressieve videodiffusiedistillatietechnieken, vertegenwoordigt ons model langetermijngeheugen met behulp van sterk gecomprimeerde historische latente tokens, gecodeerd met zowel relatieve acties als absolute cameraposities binnen de KV-cache. Deze compacte, camerabewuste geheugenstructuur ondersteunt impliciete 3D-consistente contentretrieval en handhaaft langetermijncoherentie met minimale rekenkosten. Parallel hieraan fine-tunen we een bidirectioneel teacher-videomodel om sequenties te genereren die verder reiken dan zijn oorspronkelijke trainingshorizon van 5 seconden, en transformeren we het in een causaal student-generatormodel met behulp van een nieuw geheugenefficiënt zelfforceringsparadigma dat volledige-contextdistillatie mogelijk maakt over zowel langdurige teacher- als student-zelfrollouts. Geïmplementeerd als een model met 14B parameters en getraind op een gecureerde, met Unreal Engine gerenderde dataset, behaalt RELIC realtime-generatie met 16 FPS en demonstreert het nauwkeurigere actievolging, stabielere langetermijnstreaming en robuustere ruimtelijke-geheugenretrieval in vergelijking met eerder werk. Deze capaciteiten positioneren RELIC als een sterke basis voor de volgende generatie interactieve wereldmodellering.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF121December 5, 2025