VLA-4D: Integración de la Conciencia 4D en Modelos Visión-Lenguaje-Acción para la Manipulación Robótica Espaciotemporalmente Coherente
VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
November 21, 2025
Autores: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee
cs.AI
Resumen
Los modelos visión-lenguaje-acción (VLA) muestran potencial para tareas robóticas generales, pero siguen presentando desafíos en la manipulación espacio-temporalmente coherente, la cual requiere representaciones de grano fino. Típicamente, los métodos existentes incrustan posiciones 3D en representaciones visuales para mejorar la precisión espacial de las acciones. Sin embargo, estos métodos luchan por lograr un control temporalmente coherente sobre la ejecución de acciones. En este trabajo, proponemos VLA-4D, un modelo VLA general con conciencia 4D para la manipulación robótica espacio-temporalmente coherente. Nuestro modelo se guía por dos diseños clave: 1) Representación visual consciente de 4D. Extraemos características visuales, incrustamos tiempo 1D en posiciones 3D para obtener incrustaciones 4D, y las fusionamos en una representación visual unificada mediante un mecanismo de atención cruzada. 2) Representación de acción espacio-temporal. Extendemos las representaciones de acción espacial convencionales con información temporal para permitir la planificación espacio-temporal, y alineamos las representaciones multimodales en el LLM para la predicción de acciones espacio-temporales. Dentro de este marco unificado, las representaciones visuales y de acción diseñadas hacen conjuntamente que la manipulación robótica sea espacialmente suave y temporalmente coherente. Además, extendemos el conjunto de datos VLA con anotaciones de acción temporal para el ajuste fino de nuestro modelo. Se han realizado extensos experimentos para verificar la superioridad de nuestro método en diferentes tareas de manipulación robótica.
English
Vision-language-action (VLA) models show potential for general robotic tasks, but remain challenging in spatiotemporally coherent manipulation, which requires fine-grained representations. Typically, existing methods embed 3D positions into visual representations to enhance the spatial precision of actions. However, these methods struggle to achieve temporally coherent control over action execution. In this work, we propose VLA-4D, a general VLA model with 4D awareness for spatiotemporally coherent robotic manipulation. Our model is guided by two key designs: 1) 4D-aware visual representation. We extract visual features, embed 1D time into 3D positions for 4D embeddings, and fuse them into a unified visual representation via a cross-attention mechanism. 2) Spatiotemporal action representation. We extend conventional spatial action representations with temporal information to enable the spatiotemporal planning, and align the multimodal representations into the LLM for spatiotemporal action prediction. Within this unified framework, the designed visual and action representations jointly make robotic manipulation spatially-smooth and temporally-coherent. In addition, we extend the VLA dataset with temporal action annotations for fine-tuning our model. Extensive experiments have been conducted to verify the superiority of our method across different tasks of robotic manipulation.