ChatPaper.aiChatPaper

DreamX-World 1.0: Интерактивная модель мира общего назначения

DreamX-World 1.0: A General-Purpose Interactive World Model

June 15, 2026
Авторы: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI

Аннотация

DreamX-World 1.0 представляет собой универсальную интерактивную модель мира для преобразования текста/изображения в видео, предназначенную для управляемой генерации с длительным временным горизонтом. Она поддерживает навигацию камеры, повторное обращение к ранее наблюдаемым областям и управляемые события в фотореалистичных, игровых и стилизованных доменах. Наш механизм обработки данных объединяет рендеринг в Unreal Engine с точной привязкой к камере, записи игрового процесса с богатым набором действий и реальные видеоролики с восстановленной геометрией камеры. Для управления камерой мы вводим E-PRoPE — облегченный вариант проективного позиционного кодирования, который сохраняет проективную геометрию камеры PRoPE, применяя при этом камерно-зависимое внимание к пространственно сокращенным токенам. Мы преобразуем двунаправленный генератор видео в авторегрессионную модель мира с несколькими шагами, используя каузальное форсирование, дистилляцию в стиле DMD и обучение на длинных развертках. Обучение на самостоятельно сгенерированных длинных контекстах подвергает модель воздействию ее собственной сгенерированной истории и уменьшает дрейф стиля и цвета, накапливающийся в авторегрессионных фрагментах. Механизм сохранения сцены с привязкой к памяти извлекает более ранние виды с помощью поиска на основе геометрии камеры, в то время как рециклинг остатков делает путь обусловливания менее чувствительным к несовершенным латентным представлениям памяти. Настройка инструкций событий добавляет компонуемое управление событиями, а выравнивание с помощью обучения с подкреплением восстанавливает управление камерой и визуальное качество после дистилляции. Благодаря выполнению DiT со смешанной точностью, повторному использованию остатков, декодированию VAE с 75%-ным прореживанием и асинхронному конвейерному параллелизму DreamX-World 1.0 достигает скорости до 16 кадров в секунду на восьми графических процессорах RTX 5090. В нашей базовой оценке на 5 секунд DreamX-World 1.0 получает оценку управления камерой 73,75 и общую оценку 84,76, превосходя HY-WorldPlay 1.5 и LingBot-World по общей оценке, которые достигают 80,79 и 80,45 соответственно.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.