HiVLA: Ein visuell-basiertes hierarchisches System für verkörpertes Manipulieren
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
April 15, 2026
Autoren: Tianshuo Yang, Guanyu Chen, Yutian Chen, Zhixuan Liang, Yitian Liu, Zanxin Chen, Chunpu Xu, Haotian Liang, Jiangmiao Pang, Yao Mu, Ping Luo
cs.AI
Zusammenfassung
Während end-to-end Vision-Language-Action (VLA)-Modelle ein vielversprechendes Paradigma für die robotische Manipulation darstellen, gefährdet das Feinabstimmen auf enge Steuerungsdaten häufig die tiefgreifenden Reasoning-Fähigkeiten, die von ihren Basis-Vision-Language-Modellen (VLMs) geerbt wurden. Um diesen fundamentalen Zielkonflikt zu lösen, schlagen wir HiVLA vor, ein visuell-verankertes, hierarchisches Framework, das die semantische Planung auf hoher Ebene explizit von der motorischen Steuerung auf niedriger Ebene entkoppelt. Im High-Level-Teil führt ein VLM-Planner zunächst eine Aufgabenzerlegung und visuelle Verankerung durch, um strukturierte Pläne zu generieren, die aus einer Subtask-Anweisung und einem präzisen Ziel-Bounding-Box bestehen. Um diesen Plan dann in physische Aktionen zu übersetzen, führen wir im Low-Level-Teil einen Flow-Matching Diffusion Transformer (DiT)-Aktionsexperten mit einem neuartigen kaskadierten Cross-Attention-Mechanismus ein. Dieses Design fusioniert sequenziell globalen Kontext, hochauflösende objektzentrierte Bildausschnitte und Skill-Semantik, was dem DiT ermöglicht, sich rein auf die robuste Ausführung zu konzentrieren. Unsere entkoppelte Architektur erhält das Zero-Shot-Reasoning des VLM bei, während sie eine unabhängige Verbesserung beider Komponenten ermöglicht. Umfangreiche Experimente in Simulation und der realen Welt demonstrieren, dass HiVLA state-of-the-art End-to-End-Baselines signifikant übertrifft und sich insbesondere in der Komposition langfristiger Fähigkeiten und der feingranularen Manipulation kleiner Objekte in unübersichtlichen Szenen auszeichnet.
English
While end-to-end Vision-Language-Action (VLA) models offer a promising paradigm for robotic manipulation, fine-tuning them on narrow control data often compromises the profound reasoning capabilities inherited from their base Vision-Language Models (VLMs). To resolve this fundamental trade-off, we propose HiVLA, a visual-grounded-centric hierarchical framework that explicitly decouples high-level semantic planning from low-level motor control. In high-level part, a VLM planner first performs task decomposition and visual grounding to generate structured plans, comprising a subtask instruction and a precise target bounding box. Then, to translate this plan into physical actions, we introduce a flow-matching Diffusion Transformer (DiT) action expert in low-level part equipped with a novel cascaded cross-attention mechanism. This design sequentially fuses global context, high-resolution object-centric crops and skill semantics, enabling the DiT to focus purely on robust execution. Our decoupled architecture preserves the VLM's zero-shot reasoning while allowing independent improvement of both components. Extensive experiments in simulation and the real world demonstrate that HiVLA significantly outperforms state-of-the-art end-to-end baselines, particularly excelling in long-horizon skill composition and the fine-grained manipulation of small objects in cluttered scenes.