H^{3}DP: Política de Difusión Triplemente Jerárquica para el Aprendizaje Visuomotor
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
May 12, 2025
Autores: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI
Resumen
El aprendizaje de políticas visuomotoras ha experimentado avances significativos en la manipulación robótica, con enfoques recientes que dependen principalmente de modelos generativos para modelar la distribución de acciones. Sin embargo, estos métodos a menudo pasan por alto el acoplamiento crítico entre la percepción visual y la predicción de acciones. En este trabajo, presentamos la Política de Difusión Triplemente Jerárquica~(H^{\mathbf{3}DP}), un marco novedoso de aprendizaje visuomotor que incorpora explícitamente estructuras jerárquicas para fortalecer la integración entre las características visuales y la generación de acciones. H^{3}DP contiene 3 niveles de jerarquía: (1) una estratificación de entrada consciente de la profundidad que organiza las observaciones RGB-D basándose en la información de profundidad; (2) representaciones visuales multiescala que codifican características semánticas en distintos niveles de granularidad; y (3) un proceso de difusión condicionado jerárquicamente que alinea la generación de acciones de grueso a fino con las características visuales correspondientes. Experimentos exhaustivos demuestran que H^{3}DP produce una mejora relativa promedio del +27.5% sobre los métodos de referencia en 44 tareas de simulación y logra un rendimiento superior en 4 tareas desafiantes de manipulación bimanual en el mundo real. Página del proyecto: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic
manipulation, with recent approaches predominantly relying on generative models
to model the action distribution. However, these methods often overlook the
critical coupling between visual perception and action prediction. In this
work, we introduce Triply-Hierarchical Diffusion
Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework
that explicitly incorporates hierarchical structures to strengthen the
integration between visual features and action generation. H^{3}DP contains
3 levels of hierarchy: (1) depth-aware input layering that organizes
RGB-D observations based on depth information; (2) multi-scale visual
representations that encode semantic features at varying levels of granularity;
and (3) a hierarchically conditioned diffusion process that aligns the
generation of coarse-to-fine actions with corresponding visual features.
Extensive experiments demonstrate that H^{3}DP yields a +27.5%
average relative improvement over baselines across 44 simulation
tasks and achieves superior performance in 4 challenging bimanual
real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.Summary
AI-Generated Summary