ChatPaper.aiChatPaper

H^{3}DP: Dreifach-hierarchische Diffusionspolitik für visuomotorisches Lernen

H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Autoren: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI

Zusammenfassung

Das Lernen von Visuomotorik-Policies hat erhebliche Fortschritte in der robotischen Manipulation erlebt, wobei neuere Ansätze überwiegend auf generative Modelle zurückgreifen, um die Aktionsverteilung zu modellieren. Diese Methoden übersehen jedoch oft die entscheidende Kopplung zwischen visueller Wahrnehmung und Aktionsvorhersage. In dieser Arbeit stellen wir die Triply-Hierarchical Diffusion Policy (H^{\mathbf{3}DP}) vor, ein neuartiges Framework für das Visuomotorik-Lernen, das explizit hierarchische Strukturen einbezieht, um die Integration zwischen visuellen Merkmalen und Aktionsgenerierung zu stärken. H^{3}DP umfasst drei Hierarchieebenen: (1) eine tiefenbewusste Eingabeschichtung, die RGB-D-Beobachtungen basierend auf Tiefeninformationen organisiert; (2) mehrstufige visuelle Repräsentationen, die semantische Merkmale auf verschiedenen Granularitätsebenen kodieren; und (3) einen hierarchisch bedingten Diffusionsprozess, der die Erzeugung von grob- bis feinabgestimmten Aktionen mit entsprechenden visuellen Merkmalen in Einklang bringt. Umfangreiche Experimente zeigen, dass H^{3}DP eine durchschnittliche relative Verbesserung von +27,5 % gegenüber den Baselines über 44 Simulationstasks erzielt und eine überlegene Leistung in 4 anspruchsvollen bimanuellen Manipulationsaufgaben in der realen Welt erreicht. Projektseite: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent approaches predominantly relying on generative models to model the action distribution. However, these methods often overlook the critical coupling between visual perception and action prediction. In this work, we introduce Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework that explicitly incorporates hierarchical structures to strengthen the integration between visual features and action generation. H^{3}DP contains 3 levels of hierarchy: (1) depth-aware input layering that organizes RGB-D observations based on depth information; (2) multi-scale visual representations that encode semantic features at varying levels of granularity; and (3) a hierarchically conditioned diffusion process that aligns the generation of coarse-to-fine actions with corresponding visual features. Extensive experiments demonstrate that H^{3}DP yields a +27.5% average relative improvement over baselines across 44 simulation tasks and achieves superior performance in 4 challenging bimanual real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.

Summary

AI-Generated Summary

PDF51May 13, 2025