H^{3}DP: Política de Difusão Triplamente Hierárquica para Aprendizado Visuomotor
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
May 12, 2025
Autores: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI
Resumo
O aprendizado de políticas visuomotoras tem testemunhado progressos significativos na manipulação robótica, com abordagens recentes dependendo predominantemente de modelos generativos para modelar a distribuição de ações. No entanto, esses métodos frequentemente negligenciam o acoplamento crítico entre a percepção visual e a previsão de ações. Neste trabalho, introduzimos a Política de Difusão Triplamente Hierárquica~(H^{\mathbf{3}DP}), uma nova estrutura de aprendizado visuomotor que incorpora explicitamente estruturas hierárquicas para fortalecer a integração entre características visuais e geração de ações. O H^{3}DP contém 3 níveis de hierarquia: (1) camadas de entrada com consciência de profundidade que organizam observações RGB-D com base em informações de profundidade; (2) representações visuais multiescala que codificam características semânticas em diferentes níveis de granularidade; e (3) um processo de difusão condicionado hierarquicamente que alinha a geração de ações de granularidade grossa a fina com as características visuais correspondentes. Experimentos extensivos demonstram que o H^{3}DP proporciona uma melhoria relativa média de +27,5% em relação às baselines em 44 tarefas de simulação e alcança desempenho superior em 4 tarefas desafiadoras de manipulação bimanual no mundo real. Página do Projeto: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic
manipulation, with recent approaches predominantly relying on generative models
to model the action distribution. However, these methods often overlook the
critical coupling between visual perception and action prediction. In this
work, we introduce Triply-Hierarchical Diffusion
Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework
that explicitly incorporates hierarchical structures to strengthen the
integration between visual features and action generation. H^{3}DP contains
3 levels of hierarchy: (1) depth-aware input layering that organizes
RGB-D observations based on depth information; (2) multi-scale visual
representations that encode semantic features at varying levels of granularity;
and (3) a hierarchically conditioned diffusion process that aligns the
generation of coarse-to-fine actions with corresponding visual features.
Extensive experiments demonstrate that H^{3}DP yields a +27.5%
average relative improvement over baselines across 44 simulation
tasks and achieves superior performance in 4 challenging bimanual
real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.