Relatório Técnico do Qwen-RobotWorld: Unificando a Modelagem de Mundo Incorporado através da Geração de Vídeo Condicionada por Linguagem

Resumo

Apresentamos o Qwen-RobotWorld, um modelo de mundo em vídeo condicionado por linguagem para inteligência incorporada. Utilizando linguagem natural como interface de ação unificada, ele prevê trajetórias visuais futuras fisicamente fundamentadas a partir de observações atuais, abrangendo manipulação robótica, direção autônoma, navegação em ambientes internos e transferência humano-robô. Essa formulação unificada oferece três direções de aplicação promissoras: geração de dados sintéticos para aumento de treinamento de políticas, ambientes virtuais escaláveis para avaliação de políticas e sinais de planejamento guiados por linguagem para controle robótico downstream. Isso é alcançado por meio de um design em três partes: a) MMDiT de Fluxo Duplo com Codificação de Ações com MLLM, onde um transformer de difusão de fluxo duplo com 60 camadas acopla a semântica congelada do Qwen2.5-VL com latentes do video-VAE por meio de atenção conjunta camada a camada; b) Conhecimento Mundial Incorporado (EWK), um corpus de vídeo-texto com 8,6M (mais de 200M quadros) com mapeamento ação-linguagem em mais de 20 corporificações e mais de 500 categorias de ação; e c) Currículo Progressivo Geral+Especialista, uma estratégia de treinamento em dois estágios que primeiro aprende priores visuais gerais e depois injeta especialização incorporada sob uma interface de linguagem compartilhada. Resultados extensivos demonstram forte competitividade: classifica-se em 1º lugar geral no EWMBench e no DreamGen Bench, supera todos os modelos de código aberto no WorldModelBench e no PBench. Análises zero-shot adicionais no benchmark RoboTwin-IF corroboram ainda mais a generalização robusta e a consistência multivista.

English

We introduce Qwen-RobotWorld, a language-conditioned video world model for embodied intelligence. With natural language as a unified action interface, it predicts physically grounded future visual trajectories from current observations across robotic manipulation, autonomous driving, indoor navigation, and human-to-robot transfer. This unified formulation provides three promising application directions: synthetic data generation for policy training augmentation, scalable virtual environments for policy evaluation, and language-guided planning signals for downstream robot control. This is achieved through a three-part design: a) Double-Stream MMDiT with MLLM Action Encoding, where a 60-layer double-stream diffusion transformer couples frozen Qwen2.5-VL semantics with video-VAE latents through layer-wise joint attention; b) Embodied World Knowledge (EWK), an 8.6M video-text corpus (200M+ frames) with action-language mapping over 20+ embodiments and 500+ action categories; and c) General+Expert Progressive Curriculum, a two-stage training strategy that first learns general visual priors and then injects embodied specialization under a shared language interface. Extensive results show strong competitiveness: ranks 1st overall on EWMBench and DreamGen Bench, outperforms all open-source models on WorldModelBench and PBench. Additional zero-shot analyses on RoboTwin-IF benchmark further support robust generalization and multi-view consistency.