ChatPaper.aiChatPaper

Yume-1.5 : Un modèle de génération interactive de mondes contrôlé par texte

Yume-1.5: A Text-Controlled Interactive World Generation Model

December 26, 2025
papers.authors: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI

papers.abstract

Les approches récentes ont démontré le potentiel des modèles de diffusion pour générer des mondes interactifs et explorables. Cependant, la plupart de ces méthodes rencontrent des défis critiques tels que des tailles de paramètres excessivement importantes, une dépendance à de longues étapes d'inférence et une croissance rapide du contexte historique, ce qui limite sévèrement les performances en temps réel et fait défaut en capacités de génération contrôlée par texte. Pour relever ces défis, nous proposons \method, un nouveau cadre conçu pour générer des mondes réalistes, interactifs et continus à partir d'une seule image ou d'une invite textuelle. \method y parvient grâce à une architecture soigneusement conçue qui prend en charge l'exploration au clavier des mondes générés. Le cadre comprend trois composants principaux : (1) un système de génération de vidéos longues intégrant une compression unifiée du contexte avec une attention linéaire ; (2) une stratégie d'accélération en flux temps réel alimentée par une distillation attentionnelle bidirectionnelle et un schéma amélioré d'incorporation de texte ; (3) une méthode contrôlée par texte pour générer des événements mondiaux. Nous avons fourni le code source dans le matériel supplémentaire.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.
PDF491December 31, 2025