ChatPaper.aiChatPaper

Von Räumlichem zu Handlungen: Verankerung von Vision-Sprache-Handlungs-Modellen in räumlichen Grundlagen-Priors

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

October 20, 2025
papers.authors: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI

papers.abstract

Bestehende Vision-Language-Action (VLA)-Modelle agieren in der 3D-Realwelt, basieren jedoch typischerweise auf 2D-Encodern, was eine räumliche Verständnislücke hinterlässt, die Generalisierung und Anpassungsfähigkeit einschränkt. Aktuelle 3D-Integrationsverfahren für VLAs erfordern entweder spezielle Sensoren und übertragen sich schlecht über Modalitäten hinweg, oder sie fügen schwache Hinweise ein, denen Geometrie fehlt und die die Vision-Language-Abgleichung verschlechtern. In dieser Arbeit stellen wir FALCON (From Spatial to Action) vor, ein neuartiges Paradigma, das reichhaltige 3D-Raumtokens in den Aktionskopf injiziert. FALCON nutzt räumliche Foundation-Modelle, um starke geometrische A-priori-Informationen allein aus RGB-Daten zu liefern, und beinhaltet ein Embodied Spatial Model, das optional Tiefen- oder Posendaten für höhere Genauigkeit bei Verfügbarkeit fusionieren kann, ohne Neutraining oder Architekturänderungen. Um das Sprachverständnis zu bewahren, werden die Raumtokens von einem räumlich erweiterten Aktionskopf verarbeitet, anstatt in das Vision-Language-Rückgrat konkateniert zu werden. Diese Konstruktionen ermöglichen es FALCON, Einschränkungen in der räumlichen Repräsentation, Modalitätsübertragbarkeit und Abgleichung zu adressieren. In umfassenden Evaluierungen über drei Simulations-Benchmarks und elf Realwelt-Aufgaben hinweg erzielt unser vorgeschlagenes FALCON state-of-the-art Leistung, übertrifft durchgängig wettbewerbsfähige Baseline-Methoden und bleibt robust unter Unordnung, räumlicher Prompt-Konditionierung sowie Variationen in Objektgröße und -höhe.
English
Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.
PDF261December 1, 2025