HiVLA: Un sistema gerarchico di manipolazione embodied incentrato sulla base visiva

Abstract

Sebbene i modelli Vision-Language-Action (VLA) end-to-end rappresentino un paradigma promettente per la manipolazione robotica, la loro messa a punto su dati di controllo limitati spesso compromette le profonde capacità di ragionamento ereditate dai modelli Vision-Language (VLM) di base. Per risolvere questo compromesso fondamentale, proponiamo HiVLA, un framework gerarchico centrato sulla visual grounding che dissocia esplicitamente la pianificazione semantica di alto livello dal controllo motorio di basso livello. Nella parte di alto livello, un pianificatore VLM esegue prima la scomposizione del compito e la visual grounding per generare piani strutturati, comprendenti un'istruzione per il sottocompito e un bounding box di destinazione preciso. Successivamente, per tradurre questo piano in azioni fisiche, introduciamo nella parte di basso livello un esperto d'azione DiT (Diffusion Transformer) basato sul flow matching, dotato di un nuovo meccanismo di cross-attention a cascata. Questo progetto fonde sequenzialmente il contesto globale, ritagli ad alta risoluzione centrati sugli oggetti e la semantica delle abilità, consentendo al DiT di concentrarsi esclusivamente su un'esecuzione robusta. La nostra architettura disaccoppiata preserva il ragionamento zero-shot del VLM consentendo al contempo il miglioramento indipendente di entrambi i componenti. Esperimenti estensivi in simulazione e nel mondo reale dimostrano che HiVLA supera significativamente i baseline end-to-end allo stato dell'arte, eccellendo in particolare nella composizione di abilità a lungo orizzonte e nella manipolazione fine di piccoli oggetti in scene affollate.

English

While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.

HiVLA: Un sistema gerarchico di manipolazione embodied incentrato sulla base visiva

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Abstract

Support