ChatPaper.aiChatPaper

Технический отчет Qwen-RobotWorld: Объединение воплощенного моделирования мира с помощью генерации видео по языковым условиям

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

June 15, 2026
Авторы: Jie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu
cs.AI

Аннотация

Мы представляем Qwen-RobotWorld — языкообусловленную видеомодель мира для воплощённого интеллекта. Используя естественный язык в качестве унифицированного интерфейса действий, модель предсказывает физически обоснованные будущие визуальные траектории на основе текущих наблюдений в таких задачах, как роботизированная манипуляция, автономное вождение, навигация в помещении и перенос навыков от человека к роботу. Такая единая формулировка открывает три перспективных направления применения: генерация синтетических данных для дополнения обучения политик, масштабируемые виртуальные среды для оценки политик и сигналы планирования на основе естественного языка для последующего управления роботом. Это достигается за счёт трёхкомпонентной архитектуры: а) Двухпоточный MMDiT с кодированием действий MLLM — 60-слойный двухпоточный диффузионный трансформер, связывающий замороженные семантики Qwen2.5-VL с латентными представлениями видео-VAE через послойное совместное внимание; б) Воплощённое мировое знание (EWK) — корпус видеотекстов объёмом 8,6 млн (более 200 млн кадров) с отображением действий и языка для более чем 20 воплощений и 500+ категорий действий; в) Прогрессивная программа обучения «Общий+Эксперт» — двухэтапная стратегия обучения, которая сначала усваивает общие визуальные априорные знания, а затем внедряет воплощённую специализацию в рамках единого языкового интерфейса. Обширные результаты демонстрируют высокую конкурентоспособность: модель занимает 1-е место в целом на EWMBench и DreamGen Bench, превосходя все открытые модели на WorldModelBench и PBench. Дополнительный нулевой анализ (zero-shot) на бенчмарке RoboTwin-IF подтверждает надёжное обобщение и мультиракурсную согласованность.
English
We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.