Yume-1.5: Een op tekst gebaseerd model voor het genereren van interactieve werelden
Yume-1.5: A Text-Controlled Interactive World Generation Model
December 26, 2025
Auteurs: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI
Samenvatting
Recente benaderingen hebben de belofte getoond van het gebruik van diffusiemodellen voor het genereren van interactieve en verkennende werelden. De meeste van deze methoden kampen echter met kritieke uitdagingen, zoals excessief grote parameteromvang, afhankelijkheid van langdurige inferentiestappen en snel groeiende historische context, wat de realtime-prestaties ernstig beperkt en tekstgestuurde generatiemogelijkheden ontbeert. Om deze uitdagingen aan te pakken, stellen wij \method voor, een nieuw raamwerk ontworpen om realistische, interactieve en continue werelden te genereren vanuit een enkele afbeelding of tekstprompt. \method bereikt dit door een zorgvuldig ontworpen raamwerk dat toetsenbordgestuurde exploratie van de gegenereerde werelden ondersteunt. Het raamwerk omvat drie kerncomponenten: (1) een lang-videogeneratieraamwerk dat geünificeerde contextcompressie integreert met lineaire aandacht; (2) een realtime streamingversnellingsstrategie aangedreven door bidirectionele aandacht-distillatie en een verbeterd tekstinbeddingsschema; (3) een tekstgestuurde methode voor het genereren van wereldgebeurtenissen. Wij hebben de codebase in het supplementaire materiaal beschikbaar gesteld.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.