ChatPaper.aiChatPaper

Yume: Интерактивная модель генерации миров

Yume: An Interactive World Generation Model

July 23, 2025
Авторы: Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
cs.AI

Аннотация

Yume стремится использовать изображения, текст или видео для создания интерактивного, реалистичного и динамичного мира, который позволяет исследование и управление с помощью периферийных устройств или нейронных сигналов. В этом отчете мы представляем предварительную версию метода \method, который создает динамичный мир из входного изображения и позволяет исследовать его с помощью действий на клавиатуре. Для достижения генерации высококачественного и интерактивного видеомира мы представляем тщательно разработанную структуру, состоящую из четырех основных компонентов: квантования движений камеры, архитектуры генерации видео, продвинутого сэмплера и ускорения модели. Сначала мы квантуем движения камеры для стабильного обучения и удобного взаимодействия с использованием клавиатурных вводов. Затем мы представляем Masked Video Diffusion Transformer~(MVDT) с модулем памяти для бесконечной генерации видео в авторегрессивном режиме. После этого в сэмплер добавляются Anti-Artifact Mechanism (AAM), не требующий обучения, и Time Travel Sampling на основе стохастических дифференциальных уравнений (TTS-SDE) для улучшения визуального качества и более точного управления. Кроме того, мы исследуем ускорение модели за счет синергетической оптимизации adversarial distillation и механизмов кэширования. Мы используем высококачественный набор данных для исследования мира \sekai для обучения \method, и он демонстрирует впечатляющие результаты в различных сценах и приложениях. Все данные, код и веса модели доступны на https://github.com/stdstu12/YUME. Yume будет обновляться ежемесячно для достижения своей первоначальной цели. Страница проекта: https://stdstu12.github.io/YUME-Project/.
English
Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, which allows exploration and control using peripheral devices or neural signals. In this report, we present a preview version of \method, which creates a dynamic world from an input image and allows exploration of the world using keyboard actions. To achieve this high-fidelity and interactive video world generation, we introduce a well-designed framework, which consists of four main components, including camera motion quantization, video generation architecture, advanced sampler, and model acceleration. First, we quantize camera motions for stable training and user-friendly interaction using keyboard inputs. Then, we introduce the Masked Video Diffusion Transformer~(MVDT) with a memory module for infinite video generation in an autoregressive manner. After that, training-free Anti-Artifact Mechanism (AAM) and Time Travel Sampling based on Stochastic Differential Equations (TTS-SDE) are introduced to the sampler for better visual quality and more precise control. Moreover, we investigate model acceleration by synergistic optimization of adversarial distillation and caching mechanisms. We use the high-quality world exploration dataset \sekai to train \method, and it achieves remarkable results in diverse scenes and applications. All data, codebase, and model weights are available on https://github.com/stdstu12/YUME. Yume will update monthly to achieve its original goal. Project page: https://stdstu12.github.io/YUME-Project/.
PDF776July 24, 2025