iMaC: Преобразование действий в изображения движения и контакта для воплощенных моделей мира

Аннотация

Воплощённые мировые модели стали ключевой парадигмой для визуального принятия решений роботами и интерактивного симулирования окружающей среды. Однако традиционные воплощённые архитектуры опираются на низкоразмерные структурированные векторы действий (например, углы шарниров и позы конечных эффекторов), которые страдают от ограниченной выразительной способности, слабой обобщаемости для различных воплощений и неестественного моделирования динамики при сложных физических взаимодействиях. Для преодоления этих ограничений в данной статье предлагается iMac (Image as Action Control) — новая унифицированная парадигма управления, которая рассматривает необработанные визуальные изображения как естественные представления действий для воплощённых мировых моделей. Отходя от традиционного явного кинематического кодирования действий, iMac формулирует непрерывное визуальное манипулирование в виде токенов действий на основе изображений, которые внутренне инкапсулируют пространственные намерения движения, интерактивные геометрические ограничения и тонкие физические динамики. Мы построили воплощённую архитектуру с двумя ветвями, состоящую из кодировщика изображений-действий и предиктора динамического мира: первый сжимает целевые визуальные изображения в компактные встраивания действий, а второй изучает правила перехода окружения, обусловленные действиями на основе изображений, для достижения высокоточного предсказания будущего состояния и замкнутого воплощённого управления. Проведены обширные эксперименты на общедоступных эталонных тестах воплощённого манипулирования и реальных робототехнических сценариях. Результаты демонстрируют, что iMac превосходит базовые методы управления на основе векторов действий по точности предсказания, успешности выполнения задач и способности к обобщению на различные сцены. Более того, наша конструкция действий на основе изображений устраняет зависимость от вручную определённых пространств действий, реализуя гибкое и универсальное управление для гетерогенных воплощённых агентов. Данная работа предлагает инновационную визуально-действенную перспективу для воплощённых мировых моделей, предоставляя простую, но эффективную парадигму для масштабируемого роботизированного восприятия и манипулирования.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.