HiVLA: Иерархическая система воплощенного манипулирования с визуально-обоснованным подходом
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
April 15, 2026
Авторы: Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang, Yitian Liu, Zanxin Chen, Chunpu Xu, Haotian Liang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Аннотация
Хотя сквозные модели «зрение-язык-действие» (VLA) предлагают перспективную парадигму для роботизированного манипулирования, их дообучение на узких данных управления часто приводит к деградации глубоких способностей к логическому выводу, унаследованных от базовых моделей «зрение-язык» (VLM). Для разрешения этого фундаментального компромисса мы предлагаем HiVLA — визуально-центричную иерархическую структуру, которая явно разделяет семантическое планирование высокого уровня и моторное управление низкого уровня. На верхнем уровне планировщик на основе VLM выполняет декомпозицию задачи и визуальную привязку для генерации структурированных планов, включающих инструкцию для подзадачи и точную ограничивающую рамку цели. Затем, для трансляции этого плана в физические действия, на нижнем уровне мы вводим экшн-эксперта на основе диффузионного трансформера (DiT) с сопоставлением потоков, оснащенного новым каскадным механизмом перекрестного внимания. Данная конструкция последовательно объединяет глобальный контекст, высокодетализированные объектно-ориентированные кропы и семантику навыков, позволяя DiT сосредоточиться исключительно на надежном исполнении. Наша развязанная архитектура сохраняет способность VLM к логическому выводу без дообучения, одновременно позволяя независимо улучшать оба компонента. Многочисленные эксперименты в симуляции и реальном мире демонстрируют, что HiVLA существенно превосходит современные сквозные базовые модели, особенно выделяясь в композиции долгосрочных навыков и тонком манипулировании мелкими объектами в загроможденных сценах.
English
While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.