HiVLA: Een visueel-gestuurd hiërarchisch belichaamd manipulatatiesysteem
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
April 15, 2026
Auteurs: Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang, Yitian Liu, Zanxin Chen, Chunpu Xu, Haotian Liang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Samenvatting
Hoewel end-to-end Vision-Language-Action (VLA)-modellen een veelbelovend paradigma vormen voor robotmanipulatie, gaat het finetunen ervan op beperkte controledata vaak ten koste van de diepgaande redeneervermogens die zijn geërfd van hun basis Vision-Language Models (VLM's). Om deze fundamentele afweging op te lossen, stellen we HiVLA voor, een hiërarchisch raamwerk met een visueel-verankerd centrum dat hoogwaardige semantische planning expliciet ontkoppelt van laagwaardige motorcontrole. In het hoogwaardige deel voert eerst een VLM-planner taakdecompositie en visuele verankering uit om gestructureerde plannen te genereren, bestaande uit een subtask-instructie en een precies doelbegrenzingskader. Vervolgens introduceren we in het laagwaardige deel een flow-matching Diffusion Transformer (DiT)-actie-expert, uitgerust met een nieuw gecascadeerd cross-attention-mechanisme, om dit plan om te zetten in fysieke acties. Dit ontwerp fuseert sequentieel globale context, hoogwaardige objectgerichte uitsneden en vaardigheidssemantiek, waardoor de DiT zich puur kan richten op robuuste uitvoering. Onze ontkoppelde architectuur behoudt het zero-shot redeneervermogen van de VLM terwijl onafhankelijke verbetering van beide componenten mogelijk is. Uitgebreide experimenten in simulatie en de echte wereld tonen aan dat HiVLA aanzienlijk beter presteert dan state-of-the-art end-to-end baseline-modellen, met name uitblinkt in langetermijn vaardigheidscompositie en de fijnmazige manipulatie van kleine objecten in rommelige scènes.
English
While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.