RELIC: 장기 기억을 갖춘 대화형 비디오 세계 모델
RELIC: Interactive Video World Model with Long-Horizon Memory
December 3, 2025
저자: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI
초록
진정으로 상호작용 가능한 세계 모델에는 세 가지 핵심 요소가 필요합니다: 실시간 장기간 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어입니다. 그러나 대부분의 기존 접근법은 이러한 측면 중 하나만 개별적으로 해결하는데, 세 가지를 동시에 달성하는 것은 매우 어렵기 때문입니다. 예를 들어 장기 기억 메커니즘은 실시간 성능을 저하시키는 경우가 많습니다. 본 연구에서는 이 세 가지 과제를 통합적으로 해결하는 RELIC 프레임워크를 제시합니다. 단일 이미지와 텍스트 설명을 입력받은 RELIC은 실시간으로 임의의 장면에 대한 메모리 인식 장기 탐색을 가능하게 합니다. 최근의 자기회귀 비디오 확산 증류 기술을 기반으로, 우리 모델은 KV 캐시 내 상대적 행동과 절대적 카메라 포즈를 함께 인코딩한 고도로 압축된 역사적 잠재 토큰을 사용하여 장기 기억을 표현합니다. 이 컴팩트하고 카메라 인식 메모리 구조는 암묵적인 3D 일관성 콘텐츠 검색을 지원하며 최소한의 계산 오버헤드로 장기적 일관성을 유지합니다. 동시에 양방향 교사 비디오 모델을 미세 조정하여 원래 5초 훈련 한계를 넘는 시퀀스를 생성하게 하고, 새로운 메모리 효율적 자기 강제 패러다임을 통해 인과적 학생 생성기로 변환합니다. 이는 장기간 교사 시퀀스와 학생 자기 롤아웃 모두에 걸친 전체 맥락 증류를 가능하게 합니다. 140억 파라미터 모델로 구현되고 선별된 언리얼 엔진 렌더링 데이터셋으로 훈련된 RELIC은 16 FPS의 실시간 생성 속도를 달성하면서 기존 연구 대비 더 정확한 행동 추종, 더 안정적인 장기 스트리밍, 더 강력한 공간 메모리 검색 성능을 보여줍니다. 이러한 능력들은 RELIC을 다음 세대 상호작용 세계 모델링을 위한 견고한 기반으로 확립합니다.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.