iMaC: Traduciendo Acciones en Imágenes de Movimiento y Contacto para Modelos de Mundo Encarnados

Resumen

Los modelos de mundo corpóreos han emergido como un paradigma fundamental para la toma de decisiones robóticas visuales y la simulación interactiva de entornos. Sin embargo, los marcos corpóreos convencionales dependen de vectores de acción estructurados de baja dimensionalidad (por ejemplo, ángulos articulares y poses del efector final), los cuales presentan una capacidad expresiva limitada, una escasa generalización entre diversas corporalidades y un modelado dinámico poco natural para interacciones físicas complejas. Para superar estas limitaciones, este artículo propone iMac (Image as Action Control), un novedoso paradigma de control unificado que trata las imágenes visuales en bruto como representaciones de acción nativas para modelos de mundo corpóreos. Alejándose de la codificación cinemática explícita tradicional, iMac formula la manipulación visual continua como tokens de acción basados en imágenes, los cuales encapsulan de forma inherente intenciones de movimiento espacial, restricciones geométricas interactivas y dinámicas físicas sutiles. Construimos una arquitectura corpórea de doble rama compuesta por un codificador de acción-imagen y un predictor de mundo dinámico: el codificador comprime las imágenes visuales guiadas por objetivos en representaciones de acción compactas, mientras que el predictor aprende las reglas de transición del entorno condicionadas a las acciones de imagen para lograr una predicción de estados futuros de alta fidelidad y un control corpóreo en lazo cerrado. Se realizan experimentos exhaustivos en bancos de pruebas públicos de manipulación corpórea y en escenarios robóticos del mundo real. Los resultados demuestran que iMac supera a las líneas base de control de acción basadas en vectores en precisión de predicción, tasa de éxito de tareas y capacidad de generalización entre escenas. Además, nuestro diseño de acción-imagen elimina la dependencia de espacios de acción definidos manualmente, logrando un control flexible y universal para agentes corpóreos heterogéneos. Este trabajo proporciona una perspectiva visual-acción innovadora para los modelos de mundo corpóreos, ofreciendo un paradigma simple pero efectivo para la percepción y manipulación robótica escalable.

English

Embodied world models have emerged as a pivotal paradigm for visual robotic decision-making and interactive environment simulation. However, conventional embodied frameworks rely on low-dimensional structured action vectors (e.g., joint angles and end-effector poses), which suffer from limited expressive capacity, poor generalization across diverse embodiments, and unnatural dynamic modeling for complex physical interactions. To address these limitations, this paper proposesiMac (Image as Action Control), a novel unified control paradigm that treats raw visual images as native action representations for embodied world models. Departing from traditional explicit kinematic action encoding, iMac formulates continuous visual manipulation as image-based action tokens, which inherently encapsulate spatial motion intentions, interactive geometric constraints and subtle physical dynamics. We construct a dual-branch embodied architecture consisting of an image-action encoder and a dynamic world predictor: the encoder compresses target-driven visual images into compact action embeddings, while the predictor learns environment transition rules conditioned on image actions to achieve high-fidelity future state prediction and closed-loop embodied control. Extensive experiments are conducted on public embodied manipulation benchmarks and real-world robotic scenarios. The results demonstrate that iMac outperforms vector-based action control baselines in prediction accuracy, task success rate and cross-scene generalization ability. Moreover, our image-action design eliminates the reliance on manually defined action spaces, realizing flexible and universal control for heterogeneous embodied agents. This work provides an innovative visual-action perspective for embodied world models, offering a simple yet effective paradigm for scalable robotic perception and manipulation.