iMaC: Vertalen van acties naar bewegings- en contactbeelden voor belichaamde wereldmodellen

Samenvatting

Belichaamde wereldmodellen zijn naar voren gekomen als een centraal paradigma voor visuele robotbesluitvorming en interactieve simulatie van omgevingen. Echter, conventionele belichaamde raamwerken zijn afhankelijk van laagdimensionale gestructureerde actievectoren (bijvoorbeeld gewrichtshoeken en eindeffector-posities), die lijden onder een beperkte expressieve capaciteit, slechte generalisatie over diverse belichamingen, en onnatuurlijke dynamische modellering voor complexe fysieke interacties. Om deze beperkingen aan te pakken, stelt dit artikel iMac (Image as Action Control) voor, een nieuw uniform besturingsparadigma dat onbewerkte visuele beelden behandelt als natuura actie-representaties voor belichaamde wereldmodellen. In tegenstelling tot traditionele expliciete kinematische actiecodering, formuleert iMac continue visuele manipulatie als beeldgebaseerde actietokens, die inherent ruimtelijke bewegingsintenties, interactieve geometrische beperkingen en subtiele fysieke dynamiek omvatten. We construeren een tweesporige belichaamde architectuur bestaande uit een beeld-actie-encoder en een dynamische wereldvoorspeller: de encoder comprimeert doelgestuurde visuele beelden tot compacte actie-inbeddingen, terwijl de voorspeller omgevingstransitieregels leert die zijn geconditioneerd op beeldacties om getrouwe toekomsttoestandvoorspelling en gesloten-lus belichaamde besturing te bereiken. Uitgebreide experimenten zijn uitgevoerd op openbare belichaamde manipulatiebenchmarks en robotscenario’s in de echte wereld. De resultaten tonen aan dat iMac op basis van vectoractie besturingsbaselines presteert op het gebied van voorspellingsnauwkeurigheid, taaksuccespercentage en cross-scene generalisatievermogen. Bovendien elimineert ons beeld-actie-ontwerp de afhankelijkheid van handmatig gedefinieerde actieruimtes, wat flexibele en universele besturing voor heterogene belichaamde agenten mogelijk maakt. Dit werk biedt een innovatief visueel-actieperspectief voor belichaamde wereldmodellen, en levert een eenvoudig maar effectief paradigma voor schaalbare robotperceptie en -manipulatie.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.