Modelo Mundo-Linguagem-Ação para Modelagem Unificada do Mundo, Raciocínio Linguístico e Síntese de Ações

Resumo

Propomos modelos mundo-linguagem-ação (WLA) como uma nova classe de modelos fundamentais corporificados. O WLA recebe instruções textuais, imagens e estados do robô como entradas para prever conjuntamente subtarefas textuais, imagens de submetas e ações do robô, unindo a interface de modelagem do mundo para aprender a partir de vídeos egocêntricos extensos, como no modelo mundo-ação (WAM), e as capacidades de raciocínio linguístico para resolver tarefas complexas de longo horizonte, como nos modelos visão-linguagem-ação (VLA). No núcleo do WLA está um backbone Transformer autoregressivo (AR), em vez de um Transformer de difusão bidirecional como nos WAMs, para prever o próximo estado, compreendendo a intenção textual em nível semântico e a dinâmica física complementar em granularidade fina. A dinâmica física é supervisionada pelo objetivo de modelagem do mundo baseado em um Expert Mundial dedicado, e é utilizada para facilitar a caracterização da correlação estado-ação para o Expert de Ação. O WLA utiliza meta-consultas para fazer com que a previsão do mundo impacte implicitamente a geração de ações, de modo que a primeira possa ser desabilitada durante a inferência. A previsão do mundo também pode ser ativada para permitir escalonamento em tempo de teste para melhor controle do robô. Nosso protótipo WLA-0, com 2B parâmetros ativos, alcança 40 ms por inferência em uma NVIDIA RTX 5090. Avaliações em ambientes simulados e do mundo real demonstram que o WLA-0 alcança capacidades de aprendizado multitarefa e de longo horizonte de ponta, por exemplo, 92,94% de taxa de sucesso no RoboTwin2.0 Clean e 56,5% de taxa de sucesso no RMBench. O WLA-0 também promete aprender novas tarefas diretamente a partir de vídeos de robôs com diferentes corporificações, sem anotações de ação.

English

We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the world modeling interface to learn from extensive egocentric videos as in the world-action model (WAM) and the language reasoning capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an autoregressive (AR) Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the next state, comprising the semantic-level textual intention and complementary fine-grained physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction implicitly impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from cross-embodiment robot videos without action annotations.