ChatPaper.aiChatPaper

Yume-1.5: Un Modelo de Generación de Mundos Interactivos Controlado por Texto

Yume-1.5: A Text-Controlled Interactive World Generation Model

December 26, 2025
Autores: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI

Resumen

Los enfoques recientes han demostrado el potencial de utilizar modelos de difusión para generar mundos interactivos y explorables. Sin embargo, la mayoría de estos métodos enfrentan desafíos críticos como tamaños de parámetros excesivamente grandes, dependencia de pasos de inferencia prolongados y contextos históricos de rápido crecimiento, lo que limita severamente el rendimiento en tiempo real y carece de capacidades de generación controlada por texto. Para abordar estos desafíos, proponemos \method, un marco novedoso diseñado para generar mundos realistas, interactivos y continuos a partir de una sola imagen o indicación textual. \method logra esto mediante un marco cuidadosamente diseñado que permite la exploración mediante teclado de los mundos generados. El marco consta de tres componentes principales: (1) un marco de generación de videos largos que integra compresión unificada de contexto con atención lineal; (2) una estrategia de aceleración de transmisión en tiempo real impulsada por destilación de atención bidireccional y un esquema mejorado de incrustación de texto; (3) un método controlado por texto para generar eventos del mundo. Hemos proporcionado el código base en el material complementario.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.
PDF491December 31, 2025