GRAPE: 偏好整列を通じたロボットポリシーの一般化GRAPE: Generalizing Robot Policy via Preference Alignment
最近の視覚言語行動(VLA)モデルの進歩にもかかわらず、様々なロボティクスタスクで苦しんでいる問題があります。これらのモデルは、未知のタスクへの一般化能力が低いという重要な問題を抱えており、成功したロールアウトからの行動クローニングに依存しているためです。さらに、これらのモデルは通常、異なる設定で専門家によって収集されたデモを複製するように微調整されているため、分布バイアスが導入され、効率、安全性、およびタスク完了など多様な操作目標への適応性が制限されています。このギャップを埋めるために、私たちはGRAPE(Generalizing Robot Policy via Preference Alignment)を導入します。具体的には、GRAPEは、成功と失敗の両方のトライアルから報酬を暗黙的にモデル化し、さまざまなタスクへの一般化能力を向上させるために、VLAsを軌道レベルで整列させます。さらに、GRAPEは複雑な操作タスクを独立した段階に分解し、大規模な視覚言語モデルによって提案されるキーポイントとともに、カスタマイズされた時空間制約を介して優先モデリングを自動的にガイドします。特筆すべきは、これらの制約は柔軟であり、安全性、効率、またはタスク成功などのさまざまな目標と整合させるためにカスタマイズできるという点です。私たちはGRAPEを実世界およびシミュレート環境でさまざまなタスクにわたって評価します。実験結果は、GRAPEが最先端のVLAモデルのパフォーマンスを向上させ、ドメイン内および未知の操作タスクにおける成功率をそれぞれ51.79%と60.36%向上させることを示しています。さらに、GRAPEは安全性や効率などのさまざまな目標と整合させることができ、衝突率を44.31%、ロールアウトのステップ長を11.15%削減することができます。すべてのコード、モデル、データはhttps://grape-vla.github.io/ で入手可能です。