ChatPaper.aiChatPaper

Yume-1.5: テキスト制御によるインタラクティブな世界生成モデル

Yume-1.5: A Text-Controlled Interactive World Generation Model

December 26, 2025
著者: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI

要旨

近年の研究では、拡散モデルを用いてインタラクティブで探索可能な世界を生成する手法の可能性が示されてきた。しかし、これらの手法の多くは、過度に大きなパラメータサイズ、長い推論ステップへの依存、急増する履歴コンテキストといった重大な課題に直面しており、リアルタイム性能を大幅に制限し、テキスト制御による生成機能を欠いている。これらの課題に対処するため、我々は単一の画像またはテキストプロンプトから現実的でインタラクティブかつ連続的な世界を生成する新しいフレームワークである \method を提案する。\method は、キーボード操作による生成世界の探索をサポートするように注意深く設計されたフレームワークを通じてこれを実現する。このフレームワークは以下の3つの核心コンポーネントで構成される:(1) 統一コンテキスト圧縮と線形注意機構を統合した長尺動画生成フレームワーク、(2) 双方向注意蒸留と強化されたテキスト埋め込みスキームによるリアルタイムストリーミング加速戦略、(3) 世界イベントを生成するためのテキスト制御手法。コードベースは付録資料で公開している。
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.
PDF491December 31, 2025