iMaC: Übersetzen von Aktionen in Bewegungs- und Kontaktbilder für verkörperte Weltmodelle

Zusammenfassung

Verkörperte Weltmodelle haben sich als zentrales Paradigma für visuelle robotische Entscheidungsfindung und interaktive Umgebungssimulation etabliert. Allerdings basieren konventionelle verkörperte Rahmenwerke auf niedrigdimensionalen strukturierten Aktionsvektoren (z. B. Gelenkwinkel und Endeffektorposen), die unter eingeschränkter Ausdrucksfähigkeit, schlechter Generalisierung über verschiedene Verkörperungen hinweg und unnatürlicher Dynamikmodellierung für komplexe physikalische Interaktionen leiden. Um diese Einschränkungen zu adressieren, schlägt diese Arbeit iMac (Image as Action Control) vor, ein neuartiges einheitliches Kontrollparadigma, das rohe visuelle Bilder als native Aktionsrepräsentationen für verkörperte Weltmodelle behandelt. Im Gegensatz zur traditionellen expliziten kinematischen Aktionskodierung formuliert iMac kontinuierliche visuelle Manipulation als bildbasierte Aktionstokens, die inhärent räumliche Bewegungsintentionen, interaktive geometrische Beschränkungen und subtile physikalische Dynamiken verkapseln. Wir konstruieren eine zweizweigige verkörperte Architektur, bestehend aus einem Bild-Aktions-Encoder und einem dynamischen Weltprädiktor: Der Encoder komprimiert zielgetriebene visuelle Bilder in kompakte Aktions-Einbettungen, während der Prädiktor umgebungsabhängige Übergangsregeln lernt, die auf Bildaktionen basieren, um eine hochgetreue Vorhersage zukünftiger Zustände und eine geschlossene verkörperte Regelung zu erreichen. Umfangreiche Experimente werden auf öffentlichen Benchmarks für verkörperte Manipulation und realen Robotikszenarien durchgeführt. Die Ergebnisse zeigen, dass iMac vektorbasierte Aktionskontroll-Baselines in Vorhersagegenauigkeit, Aufgabenerfolgsrate und szenenübergreifender Generalisierungsfähigkeit übertrifft. Darüber hinaus eliminiert unser Bild-Aktions-Design die Abhängigkeit von manuell definierten Aktionsräumen und ermöglicht flexible und universelle Steuerung für heterogene verkörperte Agenten. Diese Arbeit bietet eine innovative visuell-aktionale Perspektive für verkörperte Weltmodelle und liefert ein einfaches, aber effektives Paradigma für skalierbare robotische Wahrnehmung und Manipulation.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.