HiVLA : Un système hiérarchique de manipulation incarnée centré sur la perception visuelle

Résumé

Si les modèles vision-langage-action (VLA) de bout en bout offrent un paradigme prometteur pour la manipulation robotique, leur réglage fin sur des données de contrôle restreintes compromet souvent les capacités de raisonnement profond héritées de leurs modèles vision-langage (VLM) de base. Pour résoudre ce compromis fondamental, nous proposons HiVLA, une architecture hiérarchique centrée sur l'ancrage visuel qui découple explicitement la planification sémantique de haut niveau du contrôle moteur de bas niveau. Dans la partie haut niveau, un planificateur VLM effectue d'abord une décomposition de tâche et un ancrage visuel pour générer des plans structurés, comprenant une instruction de sous-tâche et une boîte englobante cible précise. Ensuite, pour traduire ce plan en actions physiques, nous introduisons un expert d'action de type Transformer à Diffusion par Appariement de Flots (DiT) dans la partie bas niveau, équipé d'un nouveau mécanisme d'attention croisée en cascade. Cette conception fusionne séquentiellement le contexte global, des rognages centrés sur l'objet à haute résolution et la sémantique des compétences, permettant au DiT de se concentrer uniquement sur une exécution robuste. Notre architecture découplée préserve le raisonnement à zéro-shot du VLM tout en permettant l'amélioration indépendante des deux composants. Des expériences approfondies en simulation et dans le monde réel démontrent que HiVLA surpasse significativement les méthodes de référence de bout en bout, excellant particulièrement dans la composition de compétences à long horizon et la manipulation fine de petits objets dans des scènes encombrées.

English

While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.

HiVLA : Un système hiérarchique de manipulation incarnée centré sur la perception visuelle

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Résumé

Support