ChatPaper.aiChatPaper

Yume: Un Modello Interattivo per la Generazione di Mondi

Yume: An Interactive World Generation Model

July 23, 2025
Autori: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI

Abstract

Yume mira a utilizzare immagini, testi o video per creare un mondo interattivo, realistico e dinamico, che consenta l'esplorazione e il controllo tramite dispositivi periferici o segnali neurali. In questo rapporto, presentiamo una versione preliminare di \method, che crea un mondo dinamico a partire da un'immagine di input e permette l'esplorazione del mondo mediante azioni da tastiera. Per ottenere questa generazione di video interattivi ad alta fedeltà, introduciamo un framework ben progettato, composto da quattro componenti principali: quantizzazione del movimento della telecamera, architettura di generazione video, campionatore avanzato e accelerazione del modello. Innanzitutto, quantizziamo i movimenti della telecamera per un addestramento stabile e un'interazione user-friendly tramite input da tastiera. Successivamente, presentiamo il Masked Video Diffusion Transformer~(MVDT) con un modulo di memoria per la generazione infinita di video in modo autoregressivo. In seguito, introduciamo nel campionatore il meccanismo Anti-Artifact (AAM) senza necessità di addestramento e il Time Travel Sampling basato su Equazioni Differenziali Stocastiche (TTS-SDE) per una migliore qualità visiva e un controllo più preciso. Inoltre, investigiamo l'accelerazione del modello attraverso l'ottimizzazione sinergica della distillazione avversaria e dei meccanismi di caching. Utilizziamo il dataset di esplorazione del mondo ad alta qualità \sekai per addestrare \method, che ottiene risultati notevoli in diverse scene e applicazioni. Tutti i dati, il codice e i pesi del modello sono disponibili su https://github.com/stdstu12/YUME. Yume verrà aggiornato mensilmente per raggiungere il suo obiettivo originale. Pagina del progetto: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, which allows exploration and control using peripheral devices or neural signals. In this report, we present a preview version of \method, which creates a dynamic world from an input image and allows exploration of the world using keyboard actions. To achieve this high-fidelity and interactive video world generation, we introduce a well-designed framework, which consists of four main components, including camera motion quantization, video generation architecture, advanced sampler, and model acceleration. First, we quantize camera motions for stable training and user-friendly interaction using keyboard inputs. Then, we introduce the Masked Video Diffusion Transformer~(MVDT) with a memory module for infinite video generation in an autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM) and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE) are introduced to the sampler for better visual quality and more precise control. Moreover, we investigate model acceleration by synergistic optimization of adversarial distillation and caching mechanisms. We use the high-quality world exploration dataset \sekai to train \method, and it achieves remarkable results in diverse scenes and applications. All data, codebase, and model weights are available on https://github.com/stdstu12/YUME. Yume will update monthly to achieve its original goal. Project page: https://stdstu12.github.io/YUME-Project/.
PDF776July 24, 2025