Yume: Un Modelo Interactivo de Generación de Mundos
Yume: An Interactive World Generation Model
July 23, 2025
Autores: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI
Resumen
Yume tiene como objetivo utilizar imágenes, texto o videos para crear un mundo interactivo, realista y dinámico, que permita la exploración y el control mediante dispositivos periféricos o señales neuronales. En este informe, presentamos una versión preliminar de \method, que crea un mundo dinámico a partir de una imagen de entrada y permite explorar dicho mundo mediante acciones de teclado. Para lograr esta generación de video interactivo y de alta fidelidad, introducimos un marco bien diseñado, que consta de cuatro componentes principales: cuantización del movimiento de la cámara, arquitectura de generación de video, muestreador avanzado y aceleración del modelo. Primero, cuantizamos los movimientos de la cámara para un entrenamiento estable y una interacción amigable utilizando entradas de teclado. Luego, presentamos el Transformer de Difusión de Video Enmascarado (MVDT) con un módulo de memoria para la generación infinita de video de manera autoregresiva. Después, introducimos el Mecanismo Anti-Artefactos (AAM) sin necesidad de entrenamiento y el Muestreo de Viaje en el Tiempo basado en Ecuaciones Diferenciales Estocásticas (TTS-SDE) en el muestreador para obtener una mejor calidad visual y un control más preciso. Además, investigamos la aceleración del modelo mediante la optimización sinérgica de la destilación adversarial y los mecanismos de almacenamiento en caché. Utilizamos el conjunto de datos de exploración de mundo de alta calidad \sekai para entrenar \method, y este logra resultados notables en diversas escenas y aplicaciones. Todos los datos, el código base y los pesos del modelo están disponibles en https://github.com/stdstu12/YUME. Yume se actualizará mensualmente para alcanzar su objetivo original. Página del proyecto: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic,
and dynamic world, which allows exploration and control using peripheral
devices or neural signals. In this report, we present a preview version of
\method, which creates a dynamic world from an input image and allows
exploration of the world using keyboard actions. To achieve this high-fidelity
and interactive video world generation, we introduce a well-designed framework,
which consists of four main components, including camera motion quantization,
video generation architecture, advanced sampler, and model acceleration. First,
we quantize camera motions for stable training and user-friendly interaction
using keyboard inputs. Then, we introduce the Masked Video Diffusion
Transformer~(MVDT) with a memory module for infinite video generation in an
autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM)
and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE)
are introduced to the sampler for better visual quality and more precise
control. Moreover, we investigate model acceleration by synergistic
optimization of adversarial distillation and caching mechanisms. We use the
high-quality world exploration dataset \sekai to train \method, and it achieves
remarkable results in diverse scenes and applications. All data, codebase, and
model weights are available on https://github.com/stdstu12/YUME. Yume will
update monthly to achieve its original goal. Project page:
https://stdstu12.github.io/YUME-Project/.