VLA-4D: 時空間的に一貫したロボット操作のためのビジョン・ランゲージ・アクションモデルへの4D認識の組み込み
VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation
November 21, 2025
著者: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee
cs.AI
要旨
視覚言語行動(VLA)モデルは一般的なロボットタスクへの可能性を示すが、細粒度の表現を必要とする時空間的に一貫したマニピュレーションでは依然として課題が多い。既存手法では通常、3次元位置情報を視覚表現に埋め込むことで動作の空間精度を向上させている。しかしこれらの手法は、動作実行における時間的に一貫した制御を実現するのに苦戦している。本研究では、時空間的に一貫したロボットマニピュレーションのための4次元知覚を備えた汎用VLAモデルであるVLA-4Dを提案する。我々のモデルは以下の2つの核心的設計に基づく:(1)4次元知覚視覚表現:視覚特徴を抽出し、1次元時間を3次元位置に埋め込んで4次元埋め込みを生成し、クロスアテンション機構により統合された視覚表現に融合する。(2)時空間的動作表現:従来の空間的動作表現に時間情報を拡張して時空間的計画を可能にし、マルチモーダル表現を大規模言語モデル(LLM)に整合させることで時空間的動作予測を実現する。この統一フレームワーク内で、設計された視覚表現と動作表現が共同して、ロボットマニピュレーションを空間的に滑らかかつ時間的に一貫したものにする。さらに、モデルのファインチューニングのために時空間的動作注釈を追加したVLAデータセットを拡張した。様々なロボットマニピュレーションタスクにおける本手法の優位性を検証するため、広範な実験を実施した。
English
Vision-language-action (VLA) models show potential for general robotic tasks, but remain challenging in spatiotemporally coherent manipulation, which requires fine-grained representations. Typically, existing methods embed 3D positions into visual representations to enhance the spatial precision of actions. However, these methods struggle to achieve temporally coherent control over action execution. In this work, we propose VLA-4D, a general VLA model with 4D awareness for spatiotemporally coherent robotic manipulation. Our model is guided by two key designs: 1) 4D-aware visual representation. We extract visual features, embed 1D time into 3D positions for 4D embeddings, and fuse them into a unified visual representation via a cross-attention mechanism. 2) Spatiotemporal action representation. We extend conventional spatial action representations with temporal information to enable the spatiotemporal planning, and align the multimodal representations into the LLM for spatiotemporal action prediction. Within this unified framework, the designed visual and action representations jointly make robotic manipulation spatially-smooth and temporally-coherent. In addition, we extend the VLA dataset with temporal action annotations for fine-tuning our model. Extensive experiments have been conducted to verify the superiority of our method across different tasks of robotic manipulation.