H^{3}DP: 視覚運動学習のための三重階層型拡散ポリシー
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
May 12, 2025
著者: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI
要旨
視覚運動ポリシー学習は、ロボット操作において大きな進展を遂げており、最近のアプローチでは主に生成モデルを活用して行動分布をモデル化している。しかし、これらの手法はしばしば視覚知覚と行動予測の間の重要な結合を見落としている。本研究では、Triply-Hierarchical Diffusion Policy(H^{\mathbf{3}DP)を提案する。これは、視覚的特徴と行動生成の統合を強化するために階層構造を明示的に取り入れた新しい視覚運動学習フレームワークである。H^{3}DPは3つの階層レベルを含む:(1)深度情報に基づいてRGB-D観測を整理する深度認識入力層、(2)様々な粒度レベルで意味的特徴をエンコードするマルチスケール視覚表現、(3)粗から細かい行動の生成を対応する視覚的特徴と整合させる階層的条件付き拡散プロセス。広範な実験により、H^{3}DPは44のシミュレーションタスクにおいてベースラインに対して平均+27.5%の相対的改善をもたらし、4つの挑戦的な両手現実世界操作タスクで優れた性能を達成することが示された。プロジェクトページ:https://lyy-iiis.github.io/h3dp/。
English
Visuomotor policy learning has witnessed substantial progress in robotic
manipulation, with recent approaches predominantly relying on generative models
to model the action distribution. However, these methods often overlook the
critical coupling between visual perception and action prediction. In this
work, we introduce Triply-Hierarchical Diffusion
Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework
that explicitly incorporates hierarchical structures to strengthen the
integration between visual features and action generation. H^{3}DP contains
3 levels of hierarchy: (1) depth-aware input layering that organizes
RGB-D observations based on depth information; (2) multi-scale visual
representations that encode semantic features at varying levels of granularity;
and (3) a hierarchically conditioned diffusion process that aligns the
generation of coarse-to-fine actions with corresponding visual features.
Extensive experiments demonstrate that H^{3}DP yields a +27.5%
average relative improvement over baselines across 44 simulation
tasks and achieves superior performance in 4 challenging bimanual
real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.Summary
AI-Generated Summary