iMaC : traduire les actions en images de mouvement et de contact pour les modèles du monde incarnés

Résumé

Les modèles du monde incarnés sont devenus un paradigme central pour la prise de décision robotique visuelle et la simulation interactive d’environnements. Cependant, les architectures incarnées conventionnelles reposent sur des vecteurs d’action structurés de faible dimension (par exemple, les angles articulaires et les poses de l’effecteur terminal), qui souffrent d’une capacité expressive limitée, d’une mauvaise généralisation entre diverses incarnations et d’une modélisation dynamique non naturelle pour des interactions physiques complexes. Pour pallier ces limitations, cet article propose iMac (Image as Action Control), un nouveau paradigme de contrôle unifié qui traite les images visuelles brutes comme des représentations d’action natives pour les modèles du monde incarnés. Contrairement au codage cinématique explicite traditionnel des actions, iMac formule la manipulation visuelle continue comme des tokens d’action basés sur l’image, qui encapsulent intrinsèquement les intentions de mouvement spatial, les contraintes géométriques interactives et les dynamiques physiques subtiles. Nous construisons une architecture incarnée à double branche composée d’un encodeur d’action-image et d’un prédicteur dynamique du monde : l’encodeur compresse les images visuelles guidées par la cible en plongements d’action compacts, tandis que le prédicteur apprend les règles de transition de l’environnement conditionnées par les actions image afin d’obtenir une prédiction d’état futur de haute fidélité et un contrôle incarné en boucle fermée. Des expériences approfondies sont menées sur des bancs d’essai publics de manipulation incarnée et des scénarios robotiques réels. Les résultats montrent qu’iMac surpasse les références de contrôle d’action basées sur des vecteurs en termes de précision de prédiction, de taux de réussite des tâches et de capacité de généralisation inter-scènes. De plus, notre conception d’action-image élimine la dépendance aux espaces d’action définis manuellement, réalisant un contrôle flexible et universel pour des agents incarnés hétérogènes. Ce travail offre une perspective visuelle-action innovante pour les modèles du monde incarnés, fournissant un paradigme simple mais efficace pour une perception et une manipulation robotiques évolutives.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.