HiVLA: Un Sistema Jerárquico de Manipulación Embebida Centrado en lo Visual

Resumen

Si bien los modelos de Visión-Lenguaje-Acción (VLA) de extremo a extremo ofrecen un paradigma prometedor para la manipulación robótica, el ajuste fino de los mismos con datos de control limitados a menudo compromete las profundas capacidades de razonamiento heredadas de sus modelos base de Visión-Lenguaje (VLM). Para resolver este compromiso fundamental, proponemos HiVLA, un marco jerárquico centrado en el anclaje visual que desacopla explícitamente la planificación semántica de alto nivel del control motor de bajo nivel. En la parte de alto nivel, un planificador VLM realiza primero una descomposición de tareas y un anclaje visual para generar planes estructurados, que comprenden una instrucción de subtarea y un cuadro delimitador de destino preciso. Luego, para traducir este plan en acciones físicas, introducimos un experto en acciones de Transformador de Difusión con Emparejamiento de Flujo (DiT) en la parte de bajo nivel, equipado con un novedoso mecanismo de atención cruzada en cascada. Este diseño fusiona secuencialmente el contexto global, recortes de alta resolución centrados en objetos y semántica de habilidades, permitiendo que el DiT se concentre únicamente en una ejecución robusta. Nuestra arquitectura desacoplada preserva el razonamiento de cero disparos del VLM mientras permite la mejora independiente de ambos componentes. Experimentos exhaustivos en simulación y en el mundo real demuestran que HiVLA supera significativamente a los baselines de última generación de extremo a extremo, destacándose particularmente en la composición de habilidades de horizonte largo y en la manipulación de grano fino de objetos pequeños en escenarios desordenados.

English

While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.

HiVLA: Un Sistema Jerárquico de Manipulación Embebida Centrado en lo Visual

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Resumen

Support