Технический отчет Qwen-RobotWorld: Объединение воплощенного моделирования мира с помощью генерации видео по языковым условиям

Аннотация

Мы представляем Qwen-RobotWorld — языкообусловленную видеомодель мира для воплощённого интеллекта. Используя естественный язык в качестве унифицированного интерфейса действий, модель предсказывает физически обоснованные будущие визуальные траектории на основе текущих наблюдений в таких задачах, как роботизированная манипуляция, автономное вождение, навигация в помещении и перенос навыков от человека к роботу. Такая единая формулировка открывает три перспективных направления применения: генерация синтетических данных для дополнения обучения политик, масштабируемые виртуальные среды для оценки политик и сигналы планирования на основе естественного языка для последующего управления роботом. Это достигается за счёт трёхкомпонентной архитектуры: а) Двухпоточный MMDiT с кодированием действий MLLM — 60-слойный двухпоточный диффузионный трансформер, связывающий замороженные семантики Qwen2.5-VL с латентными представлениями видео-VAE через послойное совместное внимание; б) Воплощённое мировое знание (EWK) — корпус видеотекстов объёмом 8,6 млн (более 200 млн кадров) с отображением действий и языка для более чем 20 воплощений и 500+ категорий действий; в) Прогрессивная программа обучения «Общий+Эксперт» — двухэтапная стратегия обучения, которая сначала усваивает общие визуальные априорные знания, а затем внедряет воплощённую специализацию в рамках единого языкового интерфейса. Обширные результаты демонстрируют высокую конкурентоспособность: модель занимает 1-е место в целом на EWMBench и DreamGen Bench, превосходя все открытые модели на WorldModelBench и PBench. Дополнительный нулевой анализ (zero-shot) на бенчмарке RoboTwin-IF подтверждает надёжное обобщение и мультиракурсную согласованность.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.