RELIC: Modelo de Mundo de Video Interactivo con Memoria de Largo Alcance
RELIC: Interactive Video World Model with Long-Horizon Memory
December 3, 2025
Autores: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI
Resumen
Un modelo de mundo verdaderamente interactivo requiere tres ingredientes clave: transmisión continua en tiempo real de larga duración, memoria espacial consistente y control preciso del usuario. Sin embargo, la mayoría de los enfoques existentes abordan solo uno de estos aspectos de forma aislada, ya que lograr los tres simultáneamente es altamente complejo; por ejemplo, los mecanismos de memoria a largo plazo a menudo degradan el rendimiento en tiempo real. En este trabajo presentamos RELIC, un marco unificado que aborda estos tres desafíos de manera integral. Dada una única imagen y una descripción textual, RELIC permite la exploración consciente de la memoria y de larga duración de escenas arbitrarias en tiempo real. Construido sobre técnicas recientes de destilación de difusión de video autorregresivo, nuestro modelo representa la memoria de largo horizonte utilizando tokens latentes históricos altamente comprimidos, codificados con acciones relativas y poses de cámara absolutas dentro de la caché KV. Esta estructura de memoria compacta y consciente de la cámara permite la recuperación implícita de contenido 3D-consistente y garantiza coherencia a largo plazo con una sobrecarga computacional mínima. En paralelo, ajustamos un modelo de video "maestro" bidireccional para generar secuencias más allá de su horizonte de entrenamiento original de 5 segundos, y lo transformamos en un generador "estudiante" causal utilizando un nuevo paradigma de auto-forzado eficiente en memoria que permite la destilación de contexto completo tanto sobre largas secuencias del maestro como sobre auto-ejecuciones largas del estudiante. Implementado como un modelo de 14B de parámetros y entrenado en un conjunto de datos curado renderizado con Unreal Engine, RELIC logra una generación en tiempo real a 16 FPS, demostrando un seguimiento de acciones más preciso, una transmisión de largo horizonte más estable y una recuperación de memoria espacial más robusta en comparación con trabajos anteriores. Estas capacidades establecen a RELIC como una base sólida para la próxima generación de modelado interactivo de mundos.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.