Обучение манипуляции в любом месте: визуальная обобщаемая структура для обучения с подкреплением
Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning
July 22, 2024
Авторы: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI
Аннотация
Можем ли мы наделить визуомоторных роботов обобщающими способностями для работы в разнообразных сценариях открытого мира? В данной статье мы предлагаем Maniwhere, обобщаемую структуру, специально разработанную для обучения с подкреплением на основе зрительных данных, позволяющую обученным политикам роботов обобщаться на сочетание нескольких типов визуальных помех. Конкретно, мы представляем подход к обучению представлений с нескольких видов, объединенный с модулем пространственного трансформатора (STN) для захвата общей семантической информации и соответствий между различными точками зрения. Кроме того, мы используем подход на основе куррикулума для случайной дополнительной обработки, чтобы стабилизировать процесс обучения с подкреплением и укрепить визуальные обобщающие способности. Для демонстрации эффективности Maniwhere мы тщательно разрабатываем 8 задач, включающих артикулированные объекты, бимануальные и ловкие задачи манипуляции руками, продемонстрировав сильные визуальные обобщающие и возможности передачи из симуляции в реальность на 3 аппаратных платформах. Наши эксперименты показывают, что Maniwhere значительно превосходит существующие методы, являющиеся лучшими на сегодняшний день. Видео предоставлены по ссылке https://gemcollector.github.io/maniwhere/.
English
Can we endow visuomotor robots with generalization capabilities to operate in
diverse open-world scenarios? In this paper, we propose Maniwhere, a
generalizable framework tailored for visual reinforcement learning, enabling
the trained robot policies to generalize across a combination of multiple
visual disturbance types. Specifically, we introduce a multi-view
representation learning approach fused with Spatial Transformer Network (STN)
module to capture shared semantic information and correspondences among
different viewpoints. In addition, we employ a curriculum-based randomization
and augmentation approach to stabilize the RL training process and strengthen
the visual generalization ability. To exhibit the effectiveness of Maniwhere,
we meticulously design 8 tasks encompassing articulate objects, bi-manual, and
dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual
generalization and sim2real transfer abilities across 3 hardware platforms. Our
experiments show that Maniwhere significantly outperforms existing
state-of-the-art methods. Videos are provided at
https://gemcollector.github.io/maniwhere/.Summary
AI-Generated Summary