Modelo Mundo-Lenguaje-Acción para Modelado de Mundo Unificado, Razonamiento Lingüístico y Síntesis de Acciones

Resumen

Proponemos los modelos mundo-lenguaje-acción (WLA) como una nueva clase de modelos fundacionales encarnados. WLA toma instrucciones textuales, imágenes y estados del robot como entradas para predecir conjuntamente subtareas textuales, imágenes de submetas y acciones del robot, combinando la interfaz de modelado del mundo para aprender de extensos videos egocéntricos como en el modelo mundo-acción (WAM) y las capacidades de razonamiento lingüístico para resolver tareas complejas de horizonte largo como en los modelos visión-lenguaje-acción (VLA). En el núcleo de WLA se encuentra una arquitectura base Transformer autorregresivo (AR), en lugar de un Transformer de difusión bidireccional como en los WAM, para predecir el siguiente estado, que comprende la intención textual a nivel semántico y la dinámica física complementaria de grano fino. La dinámica física está supervisada por el objetivo de modelado del mundo basado en un Experto Mundial dedicado, y se aprovecha para facilitar la caracterización de la correlación estado-acción para el Experto de Acción. WLA utiliza metaconsultas para hacer que la predicción del mundo impacte implícitamente en la generación de acciones, de modo que la primera pueda desactivarse durante la inferencia. La predicción del mundo también puede activarse para permitir el escalado en tiempo de prueba y mejorar el control del robot. Nuestro prototipo WLA-0, con 2B parámetros activos, logra 40 ms por inferencia en una NVIDIA RTX 5090. Las evaluaciones en entornos simulados y del mundo real demuestran que WLA-0 logra capacidades de aprendizaje multitarea y de horizonte largo de última generación, por ejemplo, una tasa de éxito del 92,94% en RoboTwin2.0 Clean y del 56,5% en RMBench. WLA-0 también tiene el potencial de aprender tareas novedosas directamente a partir de videos de robots de distintas corporalidades sin anotaciones de acciones.

English

We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the world modeling interface to learn from extensive egocentric videos as in the world-action model (WAM) and the language reasoning capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an autoregressive (AR) Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the next state, comprising the semantic-level textual intention and complementary fine-grained physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction implicitly impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from cross-embodiment robot videos without action annotations.