ChatPaper.aiChatPaper

VLA-4D: 시공간적으로 일관된 로봇 매니퓰레이션을 위한 비전-언어-행동 모델에 4D 인식 내재화

VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

November 21, 2025
저자: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee
cs.AI

초록

비전-언어-행동(VLA) 모델은 일반적인 로봇 작업에 대한 잠재력을 보여주지만, 세밀한 표현이 필요한 시공간적 일관성 있는 조작에서는 여전히 과제로 남아 있습니다. 일반적으로 기존 방법은 동작의 공간적 정밀도를 향상시키기 위해 3D 위치 정보를 시각적 표현에 내재시킵니다. 그러나 이러한 방법들은 동작 실행에 대한 시간적 일관성 있는 제어를 달성하는 데 어려움을 겪습니다. 본 연구에서는 시공간적 일관성 있는 로봇 조작을 위한 4D 인식을 갖춘 일반 VLA 모델인 VLA-4D를 제안합니다. 우리의 모델은 두 가지 핵심 설계로 구성됩니다: 1) 4D 인식 시각적 표현. 시각적 특징을 추출하고, 1D 시간 정보를 3D 위치에 내재시켜 4D 임베딩을 생성한 후, 교차 주의 메커니즘을 통해 통합된 시각적 표현으로 융합합니다. 2) 시공간적 행동 표현. 기존의 공간적 행동 표현에 시간 정보를 추가하여 시공간적 계획을 가능하게 하고, 다중 모달 표현을 LLM에 정렬하여 시공간적 행동 예측을 수행합니다. 이 통합 프레임워크 내에서 설계된 시각 및 행동 표현은 로봇 조작이 공간적으로 매끄럽고 시간적으로 일관되도록 공동으로 기여합니다. 또한, 모델 미세 조정을 위해 시간적 행동 주석이 추가된 VLA 데이터셋을 확장했습니다. 다양한 실험을 통해 로봇 조작의 여러 과제에서 우리 방법의 우수성을 입증하였습니다.
English
Vision-language-action (VLA) models show potential for general robotic tasks, but remain challenging in spatiotemporally coherent manipulation, which requires fine-grained representations. Typically, existing methods embed 3D positions into visual representations to enhance the spatial precision of actions. However, these methods struggle to achieve temporally coherent control over action execution. In this work, we propose VLA-4D, a general VLA model with 4D awareness for spatiotemporally coherent robotic manipulation. Our model is guided by two key designs: 1) 4D-aware visual representation. We extract visual features, embed 1D time into 3D positions for 4D embeddings, and fuse them into a unified visual representation via a cross-attention mechanism. 2) Spatiotemporal action representation. We extend conventional spatial action representations with temporal information to enable the spatiotemporal planning, and align the multimodal representations into the LLM for spatiotemporal action prediction. Within this unified framework, the designed visual and action representations jointly make robotic manipulation spatially-smooth and temporally-coherent. In addition, we extend the VLA dataset with temporal action annotations for fine-tuning our model. Extensive experiments have been conducted to verify the superiority of our method across different tasks of robotic manipulation.
PDF72December 1, 2025