ChatPaper.aiChatPaper

Yume: インタラクティブな世界生成モデル

Yume: An Interactive World Generation Model

July 23, 2025
著者: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI

要旨

Yumeは、画像、テキスト、または動画を使用して、インタラクティブで現実的かつダイナミックな世界を創造し、周辺機器や神経信号を用いた探索と制御を可能にすることを目指しています。本報告書では、入力画像からダイナミックな世界を生成し、キーボード操作による世界の探索を可能にする\methodのプレビュー版を紹介します。この高忠実度かつインタラクティブな動画世界生成を実現するために、カメラモーションの量子化、動画生成アーキテクチャ、高度なサンプラー、およびモデル加速を含む、よく設計されたフレームワークを導入します。まず、安定したトレーニングとユーザーフレンドリーなインタラクションを実現するために、キーボード入力を用いたカメラモーションの量子化を行います。次に、無限の動画生成を自己回帰的に行うためのメモリモジュールを備えたMasked Video Diffusion Transformer(MVDT)を紹介します。その後、トレーニング不要のAnti-Artifact Mechanism(AAM)と確率微分方程式に基づくTime Travel Sampling(TTS-SDE)をサンプラーに導入し、より優れた視覚品質とより正確な制御を実現します。さらに、敵対的蒸留とキャッシュメカニズムの相乗的最適化によるモデル加速を調査します。高品質な世界探索データセット\sekaiを使用して\methodをトレーニングし、多様なシーンやアプリケーションで顕著な結果を達成しました。すべてのデータ、コードベース、およびモデル重みはhttps://github.com/stdstu12/YUMEで利用可能です。Yumeは、その本来の目標を達成するために毎月更新されます。プロジェクトページ:https://stdstu12.github.io/YUME-Project/。
English
Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, which allows exploration and control using peripheral devices or neural signals. In this report, we present a preview version of \method, which creates a dynamic world from an input image and allows exploration of the world using keyboard actions. To achieve this high-fidelity and interactive video world generation, we introduce a well-designed framework, which consists of four main components, including camera motion quantization, video generation architecture, advanced sampler, and model acceleration. First, we quantize camera motions for stable training and user-friendly interaction using keyboard inputs. Then, we introduce the Masked Video Diffusion Transformer~(MVDT) with a memory module for infinite video generation in an autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM) and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE) are introduced to the sampler for better visual quality and more precise control. Moreover, we investigate model acceleration by synergistic optimization of adversarial distillation and caching mechanisms. We use the high-quality world exploration dataset \sekai to train \method, and it achieves remarkable results in diverse scenes and applications. All data, codebase, and model weights are available on https://github.com/stdstu12/YUME. Yume will update monthly to achieve its original goal. Project page: https://stdstu12.github.io/YUME-Project/.
PDF776July 24, 2025