ChatPaper.aiChatPaper

Yume-1.5: Um Modelo de Geração de Mundos Interativos Controlado por Texto

Yume-1.5: A Text-Controlled Interactive World Generation Model

December 26, 2025
Autores: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI

Resumo

Abordagens recentes demonstraram o potencial de usar modelos de difusão para gerar mundos interativos e exploráveis. No entanto, a maioria desses métodos enfrenta desafios críticos, como tamanhos de parâmetros excessivamente grandes, dependência de etapas de inferência longas e contexto histórico em rápido crescimento, o que limita severamente o desempenho em tempo real e carece de capacidades de geração controlada por texto. Para enfrentar esses desafios, propomos o \method, uma nova estrutura projetada para gerar mundos realistas, interativos e contínuos a partir de uma única imagem ou prompt de texto. O \method alcança isso por meio de uma estrutura cuidadosamente projetada que suporta a exploração baseada em teclado dos mundos gerados. A estrutura compreende três componentes principais: (1) uma estrutura de geração de vídeos longos que integra compressão de contexto unificada com atenção linear; (2) uma estratégia de aceleração de streaming em tempo real alimentada por destilação de atenção bidirecional e um esquema de incorporação de texto aprimorado; (3) um método controlado por texto para gerar eventos mundiais. Disponibilizamos o código-base no material suplementar.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.
PDF603March 11, 2026