ChatPaper.aiChatPaper

RELIC: Modello di Mondo Video Interattivo con Memoria a Lungo Termine

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
Autori: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

Abstract

Un modello mondiale veramente interattivo richiede tre elementi chiave: streaming in tempo reale a lungo termine, memoria spaziale coerente e controllo utente preciso. Tuttavia, la maggior parte degli approcci esistenti affronta solo uno di questi aspetti in isolamento, poiché raggiungere tutti e tre simultaneamente è estremamente impegnativo – ad esempio, i meccanismi di memoria a lungo termine spesso degradano le prestazioni in tempo reale. In questo lavoro, presentiamo RELIC, un framework unificato che affronta complessivamente queste tre sfide. Dati un singola immagine e una descrizione testuale, RELIC abilita l'esplorazione consapevole della memoria e di lunga durata di scene arbitrarie in tempo reale. Basandoci su recenti tecniche di distillazione di video-diffusion autoregressivi, il nostro modello rappresenta la memoria a lungo termine utilizzando token latenti storici altamente compressi, codificati con azioni relative e pose assolute della camera all'interno della KV cache. Questa struttura di memoria compatta e camera-aware supporta il recupero implicito di contenuti 3D-consistenti e impone una coerenza a lungo termine con un sovraccarico computazionale minimo. In parallelo, addestriamo con fine-tuning un modello insegnante video bidirezionale per generare sequenze oltre il suo originario orizzonte di addestramento di 5 secondi, e lo trasformiamo in un generatore studente causale utilizzando un nuovo paradigma di self-forcing efficiente in memoria che abilita la distillazione full-context su sequenze lunghe sia dell'insegnante che su auto-rollout prolungati dello studente. Implementato come modello da 14 miliardi di parametri e addestrato su un dataset curato renderizzato con Unreal Engine, RELIC raggiune una generazione in tempo reale a 16 FPS, dimostrando allo stesso tempo un follow-through delle azioni più accurato, uno streaming a lungo termine più stabile e un recupero della memoria spaziale più robusto rispetto ai lavori precedenti. Queste capacità stabiliscono RELIC come una solida base per la prossima generazione di modellazione mondiale interattiva.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF121December 5, 2025