Modèle monde-langage-action pour la modélisation unifiée du monde, le raisonnement langagier et la synthèse d’actions

Résumé

Nous proposons les modèles monde-langage-action (WLA) comme une nouvelle classe de modèles fondamentaux incarnés. WLA prend en entrée des instructions textuelles, des images et des états du robot pour prédire conjointement des sous-tâches textuelles, des images d'objectifs intermédiaires et des actions du robot, combinant l'interface de modélisation du monde pour apprendre à partir de vidéos égocentriques étendues, comme dans le modèle monde-action (WAM), et les capacités de raisonnement linguistique pour résoudre des tâches complexes à long horizon, comme dans les modèles vision-langage-action (VLA). Au cœur de WLA se trouve un transformateur autorégressif (AR) comme colonne vertébrale, au lieu d'un transformateur de diffusion bidirectionnel comme dans les WAM, afin de prédire l'état suivant, comprenant l'intention textuelle au niveau sémantique et la dynamique physique fine complémentaire. La dynamique physique est supervisée par l'objectif de modélisation du monde basé sur un Expert Monde dédié, et est exploitée pour faciliter la caractérisation de la corrélation état-action pour l'Expert Action. WLA utilise des méta-requêtes pour faire en sorte que la prédiction du monde influence implicitement la génération d'actions, de sorte que la première puisse être désactivée lors de l'inférence. La prédiction du monde peut également être activée pour permettre un passage à l'échelle au moment du test afin d'améliorer le contrôle du robot. Notre prototype WLA-0, avec 2 milliards de paramètres actifs, atteint 40 ms par inférence sur un NVIDIA RTX 5090. Les évaluations dans des environnements simulés et réels démontrent que WLA-0 atteint des capacités d'apprentissage multitâche et à long horizon de pointe, par exemple un taux de réussite de 92,94 % sur RoboTwin2.0 Clean et de 56,5 % sur RMBench. WLA-0 promet également d'apprendre de nouvelles tâches directement à partir de vidéos de robots inter-embodiments sans annotations d'actions.

English

We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the world modeling interface to learn from extensive egocentric videos as in the world-action model (WAM) and the language reasoning capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an autoregressive (AR) Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the next state, comprising the semantic-level textual intention and complementary fine-grained physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction implicitly impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from cross-embodiment robot videos without action annotations.