ChatPaper.aiChatPaper

RELIC: Интерактивная модель видеомира с долгосрочной памятью

RELIC: Interactive Video World Model with Long-Horizon Memory

December 3, 2025
Авторы: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
cs.AI

Аннотация

Для создания по-настоящему интерактивной модели мира необходимы три ключевых компонента: потоковое генерирование в реальном времени на длительных горизонтах, консистентная пространственная память и точный пользовательский контроль. Однако большинство существующих подходов решают лишь одну из этих задач изолированно, поскольку одновременное достижение всех трёх является крайне сложной задачей — например, механизмы долговременной памяти часто ухудшают производительность в реальном времени. В данной работе мы представляем RELIC — унифицированную архитектуру, которая решает все три проблемы совместно. Исходя из одного изображения и текстового описания, RELIC позволяет в реальном времени осуществлять осознанное памятью исследование произвольных сцен на протяжении длительного времени. Построенная на основе современных методов дистилляции авторегрессионных видео-диффузионных моделей, наша модель представляет долгосрочную память с помощью высоко сжатых латентных токенов истории, закодированных как относительными действиями, так и абсолютными позами камеры в рамках KV-кэша. Эта компактная, учитывающая камеру структура памяти поддерживает неявный поиск контента с 3D-консистентностью и обеспечивает долгосрочную согласованность с минимальными вычислительными затратами. Параллельно мы дообучаем двунаправленную учительскую видео-модель для генерации последовательностей, выходящих за пределы её исходного 5-секундного горизонта обучения, и преобразуем её в каузальную ученическую модель-генератор, используя новую парадигму эффективного по памяти самопринуждения, которая позволяет проводить дистилляцию с полным контекстом как на длительных сгенерированных учителем данных, так и на длительных самостоятельных прогонах ученика. Реализованная в виде модели с 14 миллиардами параметров и обученная на курированном наборе данных, отрендеренном в Unreal Engine, RELIC достигает генерации в реальном времени со скоростью 16 кадров в секунду, демонстрируя при этом более точное следование действиям, более стабильное потоковое генерирование на длинных горизонтах и более устойчивое извлечение пространственной памяти по сравнению с предыдущими работами. Эти возможности делают RELIC прочным фундаментом для следующего поколения интерактивного моделирования мира.
English
A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
PDF121December 5, 2025