ChatPaper.aiChatPaper

どこでも操作を学ぶ:強化学習のための視覚的汎用フレームワーク

Learning to Manipulate Anywhere: A Visual Generalizable Framework For Reinforcement Learning

July 22, 2024
著者: Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu
cs.AI

要旨

視覚運動ロボットに多様なオープンワールドシナリオで動作する汎化能力を付与することは可能か?本論文では、視覚強化学習に特化した汎用フレームワーク「Maniwhere」を提案し、訓練されたロボットポリシーが複数の視覚的擾乱タイプの組み合わせにわたって汎化できるようにする。具体的には、Spatial Transformer Network(STN)モジュールと融合したマルチビュー表現学習アプローチを導入し、異なる視点間の共有セマンティック情報と対応関係を捕捉する。さらに、カリキュラムベースのランダム化と拡張アプローチを採用して、RL訓練プロセスを安定化し、視覚的汎化能力を強化する。Maniwhereの有効性を示すため、関節物体、両手操作、および器用な手の操作タスクを含む8つのタスクを綿密に設計し、3つのハードウェアプラットフォームにわたるManiwhereの強力な視覚的汎化とシミュレーションから実世界への転移能力を実証する。実験結果は、Maniwhereが既存の最先端手法を大幅に上回ることを示している。動画はhttps://gemcollector.github.io/maniwhere/で提供されている。
English
Can we endow visuomotor robots with generalization capabilities to operate in diverse open-world scenarios? In this paper, we propose Maniwhere, a generalizable framework tailored for visual reinforcement learning, enabling the trained robot policies to generalize across a combination of multiple visual disturbance types. Specifically, we introduce a multi-view representation learning approach fused with Spatial Transformer Network (STN) module to capture shared semantic information and correspondences among different viewpoints. In addition, we employ a curriculum-based randomization and augmentation approach to stabilize the RL training process and strengthen the visual generalization ability. To exhibit the effectiveness of Maniwhere, we meticulously design 8 tasks encompassing articulate objects, bi-manual, and dexterous hand manipulation tasks, demonstrating Maniwhere's strong visual generalization and sim2real transfer abilities across 3 hardware platforms. Our experiments show that Maniwhere significantly outperforms existing state-of-the-art methods. Videos are provided at https://gemcollector.github.io/maniwhere/.

Summary

AI-Generated Summary

PDF142November 28, 2024