Yume: Een Interactief Model voor Wereldgeneratie
Yume: An Interactive World Generation Model
July 23, 2025
Auteurs: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI
Samenvatting
Yume heeft als doel om afbeeldingen, tekst of video's te gebruiken om een interactieve, realistische en dynamische wereld te creëren, die verkenning en controle mogelijk maakt met behulp van randapparatuur of neurale signalen. In dit rapport presenteren we een previewversie van \method, die een dynamische wereld creëert vanuit een invoerafbeelding en verkenning van de wereld mogelijk maakt met behulp van toetsenbordacties. Om deze hoogwaardige en interactieve videowereldgeneratie te bereiken, introduceren we een goed ontworpen framework, dat bestaat uit vier hoofdcomponenten: kwantisatie van camerabewegingen, videogeneratiearchitectuur, geavanceerde sampler en modelversnelling. Eerst kwantiseren we camerabewegingen voor stabiele training en gebruiksvriendelijke interactie met toetsenbordinvoer. Vervolgens introduceren we de Masked Video Diffusion Transformer~(MVDT) met een geheugenmodule voor oneindige videogeneratie op een autoregressieve manier. Daarna worden de trainingsvrije Anti-Artifact Mechanism (AAM) en Time Travel Sampling gebaseerd op stochastische differentiaalvergelijkingen (TTS-SDE) geïntroduceerd in de sampler voor betere visuele kwaliteit en preciezere controle. Bovendien onderzoeken we modelversnelling door synergetische optimalisatie van adversarial distillation en cachingmechanismen. We gebruiken de hoogwaardige wereldverkenningdataset \sekai om \method te trainen, en het behaalt opmerkelijke resultaten in diverse scènes en toepassingen. Alle data, codebase en modelgewichten zijn beschikbaar op https://github.com/stdstu12/YUME. Yume zal maandelijks worden bijgewerkt om zijn oorspronkelijke doel te bereiken. Projectpagina: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic,
and dynamic world, which allows exploration and control using peripheral
devices or neural signals. In this report, we present a preview version of
\method, which creates a dynamic world from an input image and allows
exploration of the world using keyboard actions. To achieve this high-fidelity
and interactive video world generation, we introduce a well-designed framework,
which consists of four main components, including camera motion quantization,
video generation architecture, advanced sampler, and model acceleration. First,
we quantize camera motions for stable training and user-friendly interaction
using keyboard inputs. Then, we introduce the Masked Video Diffusion
Transformer~(MVDT) with a memory module for infinite video generation in an
autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM)
and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE)
are introduced to the sampler for better visual quality and more precise
control. Moreover, we investigate model acceleration by synergistic
optimization of adversarial distillation and caching mechanisms. We use the
high-quality world exploration dataset \sekai to train \method, and it achieves
remarkable results in diverse scenes and applications. All data, codebase, and
model weights are available on https://github.com/stdstu12/YUME. Yume will
update monthly to achieve its original goal. Project page:
https://stdstu12.github.io/YUME-Project/.