Yume-1.5: Модель генерации интерактивных миров на основе текстовых описаний
Yume-1.5: A Text-Controlled Interactive World Generation Model
December 26, 2025
Авторы: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang
cs.AI
Аннотация
Современные подходы продемонстрировали перспективность использования диффузионных моделей для генерации интерактивных и исследуемых миров. Однако большинство этих методов сталкивается с серьезными проблемами, такими как чрезмерно большой размер параметров, зависимость от длительных шагов вывода и быстрорастущий исторический контекст, что существенно ограничивает производительность в реальном времени и отсутствие возможностей генерации по текстовому описанию. Для решения этих проблем мы предлагаем \method, новую архитектуру, предназначенную для создания реалистичных, интерактивных и непрерывных миров из одного изображения или текстового промпта. \method достигает этого за счет тщательно продуманной архитектуры, поддерживающей исследование сгенерированных миров с помощью клавиатуры. Фреймворк состоит из трех ключевых компонентов: (1) система генерации длинных видео, интегрирующая унифицированное сжатие контекста с линейным вниманием; (2) стратегия ускорения потоковой обработки в реальном времени на основе двунаправленной дистилляции внимания и усовершенствованной схемы текстовых эмбеддингов; (3) метод управления генерацией мировых событий через текст. Мы предоставили код в дополнительных материалах.
English
Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.