ChatPaper.aiChatPaper

공간적 기초 사전 지식에 비전-언어-행동 모델의 공간적 토대 구축

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

October 20, 2025
저자: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI

초록

기존 비전-언어-행동(VLA) 모델들은 3차원 실세계에서 동작하지만 일반적으로 2차원 인코더를 기반으로 구축되어, 일반화 및 적응성을 제한하는 공간 추론 격차를 남긴다. VLA를 위한 최근의 3차원 통합 기술들은 특수 센서가 필요하고 모달리티 간 이식성이 낮거나, 기하학적 정보가 부족하고 비전-언어 정렬을 저하시키는 약한 단서를 주입하는 방식에 그친다. 본 연구에서는 행동 헤드에 풍부한 3차원 공간 토큰을 주입하는 새로운 패러다임인 FALCON(From Spatial to Action)을 소개한다. FALCON은 공간 기초 모델을 활용하여 RGB 정보만으로도 강력한 기하학적 사전 정보를 제공하며, 깊이 또는 포즈 정보를 사용 가능할 경우 재학습이나 구조 변경 없이 더 높은 정밀도로 융합할 수 있는 구체화 공간 모델을 포함한다. 언어 추론 능력을 보존하기 위해 공간 토큰들은 비전-언어 백본에 연결(concatenate)되지 않고 공간 강화 행동 헤드에 의해 처리된다. 이러한 설계를 통해 FALCON은 공간 표현, 모달리티 이식성, 정렬 분야의 한계를 해결한다. 3개의 시뮬레이션 벤치마크와 11개의 실세계 과제에 걸친 포괄적 평가에서 제안된 FALCON은 최첨단 성능을 달성하고, 경쟁력 있는 베이스라인을 지속적으로 능가하며, 복잡한 환경, 공간 조건 프롬프트, 객체 크기 및 높이 변화 하에서도 견고한 성능을 유지한다.
English
Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.
PDF261December 1, 2025