HiVLA: Um Sistema Hierárquico de Manipulação Embarcada Centrado em Fundamentação Visual

Resumo

Embora os modelos de Visão-Linguagem-Ação (VLA) de ponta a ponta ofereçam um paradigma promissor para a manipulação robótica, o seu ajuste fino com dados de controle restritos frequentemente compromete as capacidades de raciocínio profundo herdadas dos seus modelos base de Visão e Linguagem (VLM). Para resolver este compromisso fundamental, propomos o HiVLA, uma estrutura hierárquica centrada no *grounding* visual que desacopla explicitamente o planeamento semântico de alto nível do controle motor de baixo nível. Na parte de alto nível, um planeador VLM executa primeiro a decomposição da tarefa e o *grounding* visual para gerar planos estruturados, compreendendo uma instrução de subtarefa e uma caixa delimitadora (*bounding box*) de alvo precisa. Em seguida, para traduzir este plano em ações físicas, introduzimos na parte de baixo nível um especialista em ação baseado num *Diffusion Transformer* (DiT) com correspondência de fluxo (*flow-matching*), equipado com um novo mecanismo de atenção cruzada em cascata. Este projeto funde sequencialmente o contexto global, recortes (*crops*) de alta resolução centrados no objeto e a semântica da habilidade, permitindo que o DiT se concentre puramente na execução robusta. A nossa arquitetura desacoplada preserva o raciocínio de *zero-shot* do VLM, permitindo simultaneamente a melhoria independente de ambos os componentes. Experimentos extensivos em simulação e no mundo real demonstram que o HiVLA supera significativamente os modelos de referência (*baselines*) de ponta a ponta do estado da arte, destacando-se particularmente na composição de habilidades de longo horizonte e na manipulação de granulação fina de objetos pequenos em cenários desordenados.

English

While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.

HiVLA: Um Sistema Hierárquico de Manipulação Embarcada Centrado em Fundamentação Visual

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Resumo

Support