ChatPaper.aiChatPaper

GRAPE: 偏好整列を通じたロボットポリシーの一般化

GRAPE: Generalizing Robot Policy via Preference Alignment

November 28, 2024
著者: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI

要旨

最近の視覚言語行動(VLA)モデルの進歩にもかかわらず、様々なロボティクスタスクで苦しんでいる問題があります。これらのモデルは、未知のタスクへの一般化能力が低いという重要な問題を抱えており、成功したロールアウトからの行動クローニングに依存しているためです。さらに、これらのモデルは通常、異なる設定で専門家によって収集されたデモを複製するように微調整されているため、分布バイアスが導入され、効率、安全性、およびタスク完了など多様な操作目標への適応性が制限されています。このギャップを埋めるために、私たちはGRAPE(Generalizing Robot Policy via Preference Alignment)を導入します。具体的には、GRAPEは、成功と失敗の両方のトライアルから報酬を暗黙的にモデル化し、さまざまなタスクへの一般化能力を向上させるために、VLAsを軌道レベルで整列させます。さらに、GRAPEは複雑な操作タスクを独立した段階に分解し、大規模な視覚言語モデルによって提案されるキーポイントとともに、カスタマイズされた時空間制約を介して優先モデリングを自動的にガイドします。特筆すべきは、これらの制約は柔軟であり、安全性、効率、またはタスク成功などのさまざまな目標と整合させるためにカスタマイズできるという点です。私たちはGRAPEを実世界およびシミュレート環境でさまざまなタスクにわたって評価します。実験結果は、GRAPEが最先端のVLAモデルのパフォーマンスを向上させ、ドメイン内および未知の操作タスクにおける成功率をそれぞれ51.79%と60.36%向上させることを示しています。さらに、GRAPEは安全性や効率などのさまざまな目標と整合させることができ、衝突率を44.31%、ロールアウトのステップ長を11.15%削減することができます。すべてのコード、モデル、データはhttps://grape-vla.github.io/ で入手可能です。
English
Despite the recent advancements of vision-language-action (VLA) models on a variety of robotics tasks, they suffer from critical issues such as poor generalizability to unseen tasks, due to their reliance on behavior cloning exclusively from successful rollouts. Furthermore, they are typically fine-tuned to replicate demonstrations collected by experts under different settings, thus introducing distribution bias and limiting their adaptability to diverse manipulation objectives, such as efficiency, safety, and task completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level and implicitly models reward from both successful and failure trials to boost generalizability to diverse tasks. Moreover, GRAPE breaks down complex manipulation tasks to independent stages and automatically guides preference modeling through customized spatiotemporal constraints with keypoints proposed by a large vision-language model. Notably, these constraints are flexible and can be customized to align the model with varying objectives, such as safety, efficiency, or task success. We evaluate GRAPE across a diverse array of tasks in both real-world and simulated environments. Experimental results demonstrate that GRAPE enhances the performance of state-of-the-art VLA models, increasing success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%, respectively. Additionally, GRAPE can be aligned with various objectives, such as safety and efficiency, reducing collision rates by 44.31% and rollout step-length by 11.15%, respectively. All code, models, and data are available at https://grape-vla.github.io/

Summary

AI-Generated Summary

PDF482December 2, 2024