Yume-1.5: Ein textgesteuertes interaktives Weltengenerierungsmodell
Yume-1.5: A Text-Controlled Interactive World Generation Model
December 26, 2025
papers.authors: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI
papers.abstract
Aktuelle Ansätze haben das Potenzial von Diffusionsmodellen zur Erzeugung interaktiver und erkundbarer Welten aufgezeigt. Die meisten dieser Methoden stehen jedoch vor kritischen Herausforderungen wie übermäßig großen Parametergrößen, der Abhängigkeit von langen Inferenzschritten und schnell wachsendem historischem Kontext, was die Echtzeitleistung erheblich einschränkt und textgesteuerte Generierungsfähigkeiten vermissen lässt. Um diese Herausforderungen zu bewältigen, schlagen wir \method vor, ein neuartiges Framework zur Erzeugung realistischer, interaktiver und kontinuierlicher Welten aus einem einzelnen Bild oder Textprompt. \method erreicht dies durch ein sorgfältig gestaltetes Framework, das tastaturbasierte Erkundung der generierten Welten unterstützt. Das Framework umfasst drei Kernkomponenten: (1) ein Langvideo-Generierungsframework mit integrierter einheitlicher Kontextkompression und linearen Aufmerksamkeitsmechanismen, (2) eine Echtzeit-Streaming-Beschleunigungsstrategie mit bidirektionaler Aufmerksamkeitsdistillation und einem erweiterten Text-Einbettungsschema, (3) eine textgesteuerte Methode zur Erzeugung von Weltereignissen. Die Codebasis wurde im ergänzenden Material bereitgestellt.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.