Действия в кадрах: сквозное обучение стратегий через генерацию многовидового видео

Аннотация

Модели мирового действия (WAM) стали перспективным направлением в обучении политик роботов, поскольку они позволяют использовать мощные видео-архитектуры для моделирования будущих состояний. Однако существующие подходы часто опираются на отдельные модули действий или используют репрезентации действий, не привязанные к пикселям, что затрудняет полное использование предварительно обученных знаний видео-моделей и ограничивает перенос между точками обзора и средами. В данной работе мы представляем Action Images — унифицированную модель мирового действия, которая формулирует обучение политики как генерацию многовидового видео. Вместо кодирования управления в виде низкоразмерных токенов мы преобразуем действия робота с 7 степенями свободы в интерпретируемые action images: многовидовые видео действий, которые привязаны к 2D-пикселям и явно отслеживают движение манипулятора. Такое пиксельно-ориентированное представление действий позволяет самому видео-бэкбону выступать в роли политики без обучения, без отдельного головного модуля политики или модуля действий. Помимо управления, та же унифицированная модель поддерживает совместную генерацию видео и действий, генерацию видео по условию действия и маркировку действий в рамках единого представления. На оценках в RLBench и в реальных условиях наша модель демонстрирует наивысшие показатели успеха в режиме zero-shot и улучшает качество совместной генерации видео и действий по сравнению с предыдущими мировыми моделями в видео-пространстве, что указывает на перспективность интерпретируемых action images для обучения политик.

English

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.

Действия в кадрах: сквозное обучение стратегий через генерацию многовидового видео

Action Images: End-to-End Policy Learning via Multiview Video Generation

Аннотация

Support