ChatPaper.aiChatPaper

H^{3}DP: Drievoudig Hiërarchisch Diffusiebeleid voor Visuomotorisch Leren

H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Auteurs: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI

Samenvatting

Visuomotorisch beleidsleren heeft aanzienlijke vooruitgang geboekt in robotmanipulatie, waarbij recente benaderingen voornamelijk vertrouwen op generatieve modellen om de actieverdeling te modelleren. Deze methoden negeren echter vaak de cruciale koppeling tussen visuele waarneming en actievoorspelling. In dit werk introduceren we Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), een nieuw visuomotorisch leerraamwerk dat expliciet hiërarchische structuren incorporeert om de integratie tussen visuele kenmerken en actiegeneratie te versterken. H^{3}DP bevat 3 niveaus van hiërarchie: (1) dieptegevoelige invoerlaagindeling die RGB-D-waarnemingen organiseert op basis van diepte-informatie; (2) multi-schaal visuele representaties die semantische kenmerken coderen op verschillende niveaus van granulariteit; en (3) een hiërarchisch geconditioneerd diffusieproces dat de generatie van grove tot fijne acties afstemt op overeenkomstige visuele kenmerken. Uitgebreide experimenten tonen aan dat H^{3}DP een gemiddelde relatieve verbetering van +27,5% oplevert ten opzichte van baseline-methoden over 44 simulatietaken en superieure prestaties bereikt in 4 uitdagende bimanuele manipulatietaken in de echte wereld. Projectpagina: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent approaches predominantly relying on generative models to model the action distribution. However, these methods often overlook the critical coupling between visual perception and action prediction. In this work, we introduce Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework that explicitly incorporates hierarchical structures to strengthen the integration between visual features and action generation. H^{3}DP contains 3 levels of hierarchy: (1) depth-aware input layering that organizes RGB-D observations based on depth information; (2) multi-scale visual representations that encode semantic features at varying levels of granularity; and (3) a hierarchically conditioned diffusion process that aligns the generation of coarse-to-fine actions with corresponding visual features. Extensive experiments demonstrate that H^{3}DP yields a +27.5% average relative improvement over baselines across 44 simulation tasks and achieves superior performance in 4 challenging bimanual real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.

Summary

AI-Generated Summary

PDF52May 13, 2025