ChatPaper.aiChatPaper

RELIC: Modelo de Mundo de Vídeo Interativo com Memória de Longo Prazo

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
Autores: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

Resumo

Um modelo de mundo verdadeiramente interativo requer três ingredientes-chave: transmissão contínua de longo prazo em tempo real, memória espacial consistente e controlo preciso do utilizador. No entanto, a maioria das abordagens existentes aborda apenas um destes aspetos de forma isolada, uma vez que alcançar os três simultaneamente é altamente desafiador – por exemplo, os mecanismos de memória de longo prazo frequentemente degradam o desempenho em tempo real. Neste trabalho, apresentamos o RELIC, uma estrutura unificada que aborda estes três desafios em conjunto. Dada uma única imagem e uma descrição textual, o RELIC permite a exploração com consciência da memória e de longa duração de cenas arbitrárias em tempo real. Construído sobre técnicas recentes de destilação de difusão de vídeo autoregressiva, o nosso modelo representa a memória de longo prazo utilizando *tokens* latentes históricos altamente comprimidos, codificados com ações relativas e poses de câmera absolutas dentro da cache KV. Esta estrutura de memória compacta e consciente da câmera suporta a recuperação implícita de conteúdo 3D consistente e impõe coerência a longo prazo com sobrecarga computacional mínima. Em paralelo, afinamos um modelo de vídeo professor bidirecional para gerar sequências além do seu horizonte de treino original de 5 segundos, e transformamo-lo num gerador estudante causal usando um novo paradigma de *self-forcing* eficiente em memória que permite a destilação de contexto completo sobre execuções longas do professor, bem como auto-gerações longas do estudante. Implementado como um modelo de 14B de parâmetros e treinado num conjunto de dados curado renderizado com Unreal Engine, o RELIC alcança geração em tempo real a 16 FPS, demonstrando, em comparação com trabalhos anteriores, um seguimento de ação mais preciso, uma transmissão contínua de longo prazo mais estável e uma recuperação de memória espacial mais robusta. Estas capacidades estabelecem o RELIC como uma base sólida para a próxima geração de modelação interativa do mundo.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF242April 2, 2026