Yume-1.5: Un modello di generazione interattiva di mondi controllato tramite testo

Abstract

Gli approcci recenti hanno dimostrato le potenzialità dei modelli di diffusione per generare mondi interattivi ed esplorabili. Tuttavia, la maggior parte di questi metodi affronta sfide critiche come dimensioni eccessivamente grandi dei parametri, dipendenza da lunghe fasi di inferenza e contesto storico in rapida crescita, che limitano gravemente le prestazioni in tempo reale e mancano di capacità di generazione controllata da testo. Per affrontare queste sfide, proponiamo \method, un framework innovativo progettato per generare mondi realistici, interattivi e continui a partire da una singola immagine o prompt testuale. \method raggiunge questo obiettivo attraverso un'architettura accuratamente progettata che supporta l'esplorazione tramite tastiera dei mondi generati. Il framework comprende tre componenti fondamentali: (1) un'architettura per la generazione di video lunghi che integra la compressione del contesto unificata con l'attenzione lineare; (2) una strategia di accelerazione dello streaming in tempo reale alimentata dalla distillazione bidirezionale dell'attenzione e da uno schema potenziato di incorporamento testuale; (3) un metodo controllato da testo per generare eventi mondiali. Abbiamo reso disponibile il codice sorgente nel materiale supplementare.

English

Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.

Yume-1.5: Un modello di generazione interattiva di mondi controllato tramite testo

Yume-1.5: A Text-Controlled Interactive World Generation Model

Abstract

Support