H^{3}DP: Politica di Diffusione a Tripla Gerarchia per l'Apprendimento Visuomotorio
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
May 12, 2025
Autori: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI
Abstract
L'apprendimento di politiche visuomotorie ha registrato progressi significativi nella manipolazione robotica, con approcci recenti che si basano principalmente su modelli generativi per modellare la distribuzione delle azioni. Tuttavia, questi metodi spesso trascurano il fondamentale accoppiamento tra percezione visiva e previsione delle azioni. In questo lavoro, introduciamo la Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), un nuovo framework di apprendimento visuomotorio che incorpora esplicitamente strutture gerarchiche per rafforzare l'integrazione tra caratteristiche visive e generazione di azioni. H^{3}DP contiene 3 livelli di gerarchia: (1) stratificazione degli input consapevole della profondità che organizza le osservazioni RGB-D in base alle informazioni di profondità; (2) rappresentazioni visive multi-scala che codificano caratteristiche semantiche a diversi livelli di granularità; e (3) un processo di diffusione condizionato gerarchicamente che allinea la generazione di azioni da grossolane a fini con le corrispondenti caratteristiche visive. Esperimenti estensivi dimostrano che H^{3}DP produce un miglioramento relativo medio del +27,5% rispetto ai baseline su 44 task di simulazione e raggiunge prestazioni superiori in 4 impegnativi task di manipolazione bimanuale nel mondo reale. Pagina del progetto: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic
manipulation, with recent approaches predominantly relying on generative models
to model the action distribution. However, these methods often overlook the
critical coupling between visual perception and action prediction. In this
work, we introduce Triply-Hierarchical Diffusion
Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework
that explicitly incorporates hierarchical structures to strengthen the
integration between visual features and action generation. H^{3}DP contains
3 levels of hierarchy: (1) depth-aware input layering that organizes
RGB-D observations based on depth information; (2) multi-scale visual
representations that encode semantic features at varying levels of granularity;
and (3) a hierarchically conditioned diffusion process that aligns the
generation of coarse-to-fine actions with corresponding visual features.
Extensive experiments demonstrate that H^{3}DP yields a +27.5%
average relative improvement over baselines across 44 simulation
tasks and achieves superior performance in 4 challenging bimanual
real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.