ChatPaper.aiChatPaper

RELIC: Interaktives Video-Weltmodell mit Langzeitgedächtnis

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
papers.authors: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

papers.abstract

Ein wirklich interaktives Weltmodell erfordert drei Schlüsselkomponenten: echtzeitfähiges Langzeit-Streaming, konsistentes räumliches Gedächtnis und präzise Benutzersteuerung. Die meisten bestehenden Ansätze behandeln jedoch nur einen dieser Aspekte isoliert, da die gleichzeitige Realisierung aller drei höchst anspruchsvoll ist – beispielsweise beeinträchtigen Langzeitgedächtnismechanismen oft die Echtzeitleistung. In dieser Arbeit stellen wir RELIC vor, einen einheitlichen Rahmen, der diese drei Herausforderungen gemeinsam adressiert. Ausgehend von einem einzelnen Bild und einer Textbeschreibung ermöglicht RELIC eine gedächtnisbewusste, langandauernde Erkundung beliebiger Szenen in Echtzeit. Unser Modell basiert auf aktuellen autoregressiven Video-Diffusions-Distillationstechniken und repräsentiert Langzeitgedächtnis durch hochkomprimierte historische latente Tokens, die mit relativen Aktionen und absoluten Kameraposen im KV-Cache kodiert sind. Diese kompakte, kamerabewusste Gedächtnisstruktur unterstützt implizite 3D-konsistente Inhaltsabfrage und erzwingt Langzeitkohärenz mit minimalem Rechenaufwand. Parallel dazu feintunen wir ein bidirektionales Lehrer-Videomodell, um Sequenzen jenseits seines ursprünglichen 5-Sekunden-Trainingshorizonts zu generieren, und transformieren es mittels eines neuen speichereffizienten Self-Forcing-Paradigmas in einen kausalen Studenten-Generator, der Vollkontext-Distillation über lange Lehrer- sowie lange Studenten-Self-Rollouts ermöglicht. Als 14-Milliarden-Parameter-Modell implementiert und auf einem kuratierten, mit Unreal Engine gerenderten Datensatz trainiert, erreicht RELIC Echtzeitgenerierung mit 16 FPS und zeigt im Vergleich zu früheren Arbeiten präziseres Handlungsfolgen, stabileres Langzeit-Streaming und robustere räumliche Gedächtnisabfrage. Diese Fähigkeiten etablieren RELIC als eine solide Grundlage für die nächste Generation interaktiver Weltmodellierung.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF121December 5, 2025