Yume : Un modèle interactif de génération de mondes
Yume: An Interactive World Generation Model
July 23, 2025
papers.authors: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI
papers.abstract
Yume vise à utiliser des images, du texte ou des vidéos pour créer un monde interactif, réaliste et dynamique, permettant l'exploration et le contrôle via des périphériques ou des signaux neuronaux. Dans ce rapport, nous présentons une version préliminaire de \method, qui génère un monde dynamique à partir d'une image d'entrée et permet son exploration via des actions au clavier. Pour réaliser cette génération de vidéos interactives et haute fidélité, nous introduisons un cadre bien conçu, composé de quatre éléments principaux : la quantification des mouvements de caméra, l'architecture de génération vidéo, un échantillonneur avancé et l'accélération du modèle. D'abord, nous quantifions les mouvements de caméra pour un entraînement stable et une interaction intuitive via le clavier. Ensuite, nous présentons le Masked Video Diffusion Transformer~(MVDT) avec un module de mémoire pour une génération vidéo infinie de manière autoregressive. Puis, nous intégrons au processus d'échantillonnage le mécanisme Anti-Artifact (AAM) sans entraînement et le Time Travel Sampling basé sur les Équations Différentielles Stochastiques (TTS-SDE) pour une meilleure qualité visuelle et un contrôle plus précis. De plus, nous explorons l'accélération du modèle via une optimisation synergique de la distillation antagoniste et des mécanismes de mise en cache. Nous utilisons le jeu de données d'exploration de monde de haute qualité \sekai pour entraîner \method, qui obtient des résultats remarquables dans divers scénarios et applications. Toutes les données, le code et les poids des modèles sont disponibles sur https://github.com/stdstu12/YUME. Yume sera mis à jour mensuellement pour atteindre son objectif initial. Page du projet : https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic,
and dynamic world, which allows exploration and control using peripheral
devices or neural signals. In this report, we present a preview version of
\method, which creates a dynamic world from an input image and allows
exploration of the world using keyboard actions. To achieve this high-fidelity
and interactive video world generation, we introduce a well-designed framework,
which consists of four main components, including camera motion quantization,
video generation architecture, advanced sampler, and model acceleration. First,
we quantize camera motions for stable training and user-friendly interaction
using keyboard inputs. Then, we introduce the Masked Video Diffusion
Transformer~(MVDT) with a memory module for infinite video generation in an
autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM)
and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE)
are introduced to the sampler for better visual quality and more precise
control. Moreover, we investigate model acceleration by synergistic
optimization of adversarial distillation and caching mechanisms. We use the
high-quality world exploration dataset \sekai to train \method, and it achieves
remarkable results in diverse scenes and applications. All data, codebase, and
model weights are available on https://github.com/stdstu12/YUME. Yume will
update monthly to achieve its original goal. Project page:
https://stdstu12.github.io/YUME-Project/.