Yume: Ein interaktives Modell zur Welterzeugung
Yume: An Interactive World Generation Model
July 23, 2025
papers.authors: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI
papers.abstract
Yume zielt darauf ab, Bilder, Texte oder Videos zu nutzen, um eine interaktive, realistische und dynamische Welt zu erschaffen, die Erkundung und Steuerung über Peripheriegeräte oder neuronale Signale ermöglicht. In diesem Bericht präsentieren wir eine Vorabversion von \method, die aus einem Eingabebild eine dynamische Welt erzeugt und die Erkundung dieser Welt über Tastatureingaben ermöglicht. Um diese hochwertige und interaktive Videoweltgenerierung zu erreichen, führen wir ein durchdachtes Framework ein, das aus vier Hauptkomponenten besteht: Kamerabewegungsquantisierung, Videogenerierungsarchitektur, fortschrittlicher Sampler und Modellbeschleunigung. Zunächst quantisieren wir Kamerabewegungen für stabiles Training und benutzerfreundliche Interaktion über Tastatureingaben. Anschließend stellen wir den Masked Video Diffusion Transformer (MVDT) mit einem Speichermodul für die unendliche Videogenerierung in autoregressiver Weise vor. Danach werden das trainingsfreie Anti-Artifact Mechanism (AAM) und das Time Travel Sampling basierend auf stochastischen Differentialgleichungen (TTS-SDE) in den Sampler integriert, um eine bessere visuelle Qualität und präzisere Steuerung zu erreichen. Darüber hinaus untersuchen wir die Modellbeschleunigung durch synergetische Optimierung von adversarieller Destillation und Caching-Mechanismen. Wir verwenden den hochwertigen Welt-Explorationsdatensatz \sekai, um \method zu trainieren, und erzielen bemerkenswerte Ergebnisse in verschiedenen Szenen und Anwendungen. Alle Daten, Codebasen und Modellgewichte sind auf https://github.com/stdstu12/YUME verfügbar. Yume wird monatlich aktualisiert, um sein ursprüngliches Ziel zu erreichen. Projektseite: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic,
and dynamic world, which allows exploration and control using peripheral
devices or neural signals. In this report, we present a preview version of
\method, which creates a dynamic world from an input image and allows
exploration of the world using keyboard actions. To achieve this high-fidelity
and interactive video world generation, we introduce a well-designed framework,
which consists of four main components, including camera motion quantization,
video generation architecture, advanced sampler, and model acceleration. First,
we quantize camera motions for stable training and user-friendly interaction
using keyboard inputs. Then, we introduce the Masked Video Diffusion
Transformer~(MVDT) with a memory module for infinite video generation in an
autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM)
and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE)
are introduced to the sampler for better visual quality and more precise
control. Moreover, we investigate model acceleration by synergistic
optimization of adversarial distillation and caching mechanisms. We use the
high-quality world exploration dataset \sekai to train \method, and it achieves
remarkable results in diverse scenes and applications. All data, codebase, and
model weights are available on https://github.com/stdstu12/YUME. Yume will
update monthly to achieve its original goal. Project page:
https://stdstu12.github.io/YUME-Project/.