iMaC: Traduzindo Ações em Imagens de Movimento e Contato para Modelos de Mundo Corporificados

Resumo

Modelos de mundo incorporados emergiram como um paradigma fundamental para a tomada de decisão robótica visual e simulação de ambientes interativos. No entanto, estruturas incorporadas convencionais dependem de vetores de ação estruturados de baixa dimensionalidade (por exemplo, ângulos das juntas e poses do efetuador final), que sofrem de capacidade expressiva limitada, baixa generalização entre diversas incorporações e modelagem dinâmica não natural para interações físicas complexas. Para lidar com essas limitações, este artigo propõe o iMac (Image as Action Control - Imagem como Controle de Ação), um novo paradigma de controle unificado que trata imagens visuais brutas como representações de ação nativas para modelos de mundo incorporados. Diferindo da codificação explícita de ação cinemática tradicional, o iMac formula a manipulação visual contínua como tokens de ação baseados em imagem, que encapsulam inerentemente intenções de movimento espacial, restrições geométricas interativas e dinâmicas físicas sutis. Construímos uma arquitetura incorporada de dois ramos composta por um codificador de imagem-ação e um preditor de mundo dinâmico: o codificador comprime imagens visuais orientadas por alvo em embeddings de ação compactos, enquanto o preditor aprende regras de transição do ambiente condicionadas por ações de imagem para alcançar predição de estado futuro de alta fidelidade e controle incorporado em malha fechada. Extensos experimentos são realizados em benchmarks públicos de manipulação incorporada e cenários robóticos do mundo real. Os resultados demonstram que o iMac supera as linhas de base de controle de ação baseado em vetores em precisão de predição, taxa de sucesso de tarefa e capacidade de generalização entre cenas. Além disso, nosso design de imagem-ação elimina a dependência de espaços de ação definidos manualmente, realizando um controle flexível e universal para agentes incorporados heterogêneos. Este trabalho fornece uma perspectiva inovadora de ação visual para modelos de mundo incorporados, oferecendo um paradigma simples, porém eficaz, para percepção e manipulação robótica escalável.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.