Yume: Um Modelo Interativo de Geração de Mundos
Yume: An Interactive World Generation Model
July 23, 2025
Autores: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI
Resumo
O Yume tem como objetivo utilizar imagens, textos ou vídeos para criar um mundo interativo, realista e dinâmico, que permita exploração e controle por meio de dispositivos periféricos ou sinais neurais. Neste relatório, apresentamos uma versão prévia do \method, que cria um mundo dinâmico a partir de uma imagem de entrada e permite a exploração desse mundo por meio de ações no teclado. Para alcançar essa geração de vídeo interativo e de alta fidelidade, introduzimos um framework bem projetado, composto por quatro componentes principais: quantização de movimento da câmera, arquitetura de geração de vídeo, amostrador avançado e aceleração do modelo. Primeiro, quantizamos os movimentos da câmera para garantir treinamento estável e interação amigável ao usuário por meio de entradas no teclado. Em seguida, apresentamos o Masked Video Diffusion Transformer~(MVDT) com um módulo de memória para geração infinita de vídeo de forma autorregressiva. Depois, o Anti-Artifact Mechanism (AAM) sem necessidade de treinamento e o Time Travel Sampling baseado em Equações Diferenciais Estocásticas (TTS-SDE) são introduzidos no amostrador para melhorar a qualidade visual e permitir controle mais preciso. Além disso, investigamos a aceleração do modelo por meio da otimização sinérgica de destilação adversarial e mecanismos de cache. Utilizamos o conjunto de dados de exploração de mundo de alta qualidade \sekai para treinar o \method, que alcança resultados notáveis em diversas cenas e aplicações. Todos os dados, código-base e pesos do modelo estão disponíveis em https://github.com/stdstu12/YUME. O Yume será atualizado mensalmente para alcançar seu objetivo original. Página do projeto: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic,
and dynamic world, which allows exploration and control using peripheral
devices or neural signals. In this report, we present a preview version of
\method, which creates a dynamic world from an input image and allows
exploration of the world using keyboard actions. To achieve this high-fidelity
and interactive video world generation, we introduce a well-designed framework,
which consists of four main components, including camera motion quantization,
video generation architecture, advanced sampler, and model acceleration. First,
we quantize camera motions for stable training and user-friendly interaction
using keyboard inputs. Then, we introduce the Masked Video Diffusion
Transformer~(MVDT) with a memory module for infinite video generation in an
autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM)
and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE)
are introduced to the sampler for better visual quality and more precise
control. Moreover, we investigate model acceleration by synergistic
optimization of adversarial distillation and caching mechanisms. We use the
high-quality world exploration dataset \sekai to train \method, and it achieves
remarkable results in diverse scenes and applications. All data, codebase, and
model weights are available on https://github.com/stdstu12/YUME. Yume will
update monthly to achieve its original goal. Project page:
https://stdstu12.github.io/YUME-Project/.