Модель «Мир-Язык-Действие» для единого моделирования мира, языковых рассуждений и синтеза действий

Аннотация

Мы представляем модели «мир-язык-действие» (WLA) как новый класс встроенных фундаментальных моделей. WLA принимает текстовые инструкции, изображения и состояния робота в качестве входных данных для совместного прогнозирования текстовых подзадач, образов подцелей и действий робота, объединяя интерфейс моделирования мира для обучения на обширных эгоцентричных видео, как в модели «мир-действие» (WAM), и возможности языкового рассуждения для решения сложных долгосрочных задач, как в моделях «зрение-язык-действие» (VLA). В основе WLA лежит авторегрессионный (AR) бэкбон Transformer, а не двунаправленный диффузионный Transformer, как в WAM, для прогнозирования следующего состояния, включающего семантические текстовые намерения и дополняющие их мелкозернистые физические динамики. Физические динамики контролируются целью моделирования мира на основе специализированного мирового эксперта и используются для облегчения характеристики корреляции между состоянием и действием для эксперта по действиям. WLA использует метазапросы, чтобы прогноз мира неявно влиял на генерацию действий, что позволяет отключать первый во время вывода. Прогноз мира также может быть активирован для масштабирования во время тестирования с целью улучшения управления роботом. Наш прототип WLA-0 с 2 млрд активных параметров достигает 40 мс на один вывод на NVIDIA RTX 5090. Оценки в моделируемых и реальных средах показывают, что WLA-0 демонстрирует передовые способности к многозадачному и долгосрочному обучению, например, 92,94% успеха на RoboTwin2.0 Clean и 56,5% успеха на RMBench. WLA-0 также обещает возможность обучения новым задачам непосредственно на основе кросстемпоральных видео роботов без аннотаций действий.

English

We propose world-language-action (WLA) models as a new class of embodied foundation models. WLA takes textual instructions, images, and robot states as inputs to jointly predict textual subtasks, subgoal images, and robot actions, conjoining the world modeling interface to learn from extensive egocentric videos as in the world-action model (WAM) and the language reasoning capacities to solve complex long-horizon tasks as in vision-language-action (VLA) models. At the core of WLA lies an autoregressive (AR) Transformer backbone, instead of a bidirectional diffusion Transformer as in WAMs, to predict the next state, comprising the semantic-level textual intention and complementary fine-grained physical dynamics. The physical dynamics are supervised by the world modeling objective based on a dedicated World Expert, and are leveraged to ease the characterization of the state-action correlation for the Action Expert. WLA leverages meta-queries to make the world prediction implicitly impact the action generation so that the former can be disabled during inference. The world prediction can also be activated to enable test-time scaling for improved robot control. Our WLA-0 prototype, with 2B active parameters, achieves 40 ms per inference on an NVIDIA RTX 5090. Evaluations across simulated and real-world environments demonstrate that WLA-0 achieves state-of-the-art multi-task and long-horizon learning abilities, e.g., 92.94\% success rate on RoboTwin2.0 Clean and 56.5\% success rate on RMBench. WLA-0 also holds the promise to learn novel tasks directly from cross-embodiment robot videos without action annotations.