ChatPaper.aiChatPaper

H^{3}DP: Трехуровневая диффузионная политика для визуомоторного обучения

H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025
Авторы: Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu
cs.AI

Аннотация

Обучение визуомоторным стратегиям достигло значительного прогресса в области роботизированной манипуляции, при этом современные подходы в основном полагаются на генеративные модели для моделирования распределения действий. Однако эти методы часто упускают из виду критическую взаимосвязь между визуальным восприятием и предсказанием действий. В данной работе мы представляем Triply-Hierarchical Diffusion Policy (H^{3}DP), новую структуру для обучения визуомоторным стратегиям, которая явно включает иерархические структуры для усиления интеграции между визуальными признаками и генерацией действий. H^{3}DP содержит три уровня иерархии: (1) слоистую организацию входных данных с учетом глубины, которая упорядочивает RGB-D наблюдения на основе информации о глубине; (2) многомасштабные визуальные представления, кодирующие семантические признаки на различных уровнях детализации; и (3) иерархически обусловленный процесс диффузии, который согласует генерацию действий от грубых к точным с соответствующими визуальными признаками. Многочисленные эксперименты демонстрируют, что H^{3}DP обеспечивает среднее относительное улучшение на +27,5% по сравнению с базовыми методами в 44 симуляционных задачах и достигает превосходной производительности в 4 сложных задачах двуручной манипуляции в реальном мире. Страница проекта: https://lyy-iiis.github.io/h3dp/.
English
Visuomotor policy learning has witnessed substantial progress in robotic manipulation, with recent approaches predominantly relying on generative models to model the action distribution. However, these methods often overlook the critical coupling between visual perception and action prediction. In this work, we introduce Triply-Hierarchical Diffusion Policy~(H^{\mathbf{3}DP}), a novel visuomotor learning framework that explicitly incorporates hierarchical structures to strengthen the integration between visual features and action generation. H^{3}DP contains 3 levels of hierarchy: (1) depth-aware input layering that organizes RGB-D observations based on depth information; (2) multi-scale visual representations that encode semantic features at varying levels of granularity; and (3) a hierarchically conditioned diffusion process that aligns the generation of coarse-to-fine actions with corresponding visual features. Extensive experiments demonstrate that H^{3}DP yields a +27.5% average relative improvement over baselines across 44 simulation tasks and achieves superior performance in 4 challenging bimanual real-world manipulation tasks. Project Page: https://lyy-iiis.github.io/h3dp/.

Summary

AI-Generated Summary

PDF51May 13, 2025