PEEK: ロボット操作ポリシーのゼロショット汎化のためのガイディングおよび最小限の画像表現
PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
September 22, 2025
著者: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI
要旨
ロボット操作ポリシーは、どこに注意を向けるか、どのような行動を取るか、そしてそれらをどのように実行するかを同時に学習しなければならないため、しばしば汎化に失敗します。我々は、どこに注意を向けるか、どのような行動を取るかという高レベルの推論を視覚言語モデル(VLM)にオフロードし、ポリシーがどのように行動するかに特化することを提案します。本論文では、PEEK(Policy-agnostic Extraction of Essential Keypoints)を紹介します。PEEKは、VLMを微調整して、統一されたポイントベースの中間表現を予測します。1. エンドエフェクタの経路(どのような行動を取るかを指定)、2. タスク関連マスク(どこに焦点を当てるかを示す)。これらの注釈はロボットの観測に直接重ねられるため、表現はポリシーに依存せず、アーキテクチャ間で転移可能です。スケーラブルなトレーニングを可能にするために、9つの実装にまたがる20以上のロボットデータセットにわたるラベル付きデータを生成する自動注釈パイプラインを導入します。実世界での評価では、PEEKはゼロショット汎化を一貫して向上させ、シミュレーションのみでトレーニングされた3Dポリシーに対して41.4倍の実世界での改善、大規模なVLAと小規模な操作ポリシーの両方で2-3.5倍の向上をもたらしました。VLMに意味的および視覚的な複雑性を吸収させることで、PEEKは操作ポリシーに必要な最小限の手がかり(どこに、何を、どのように)を提供します。ウェブサイトはhttps://peek-robot.github.io/にあります。
English
Robotic manipulation policies often fail to generalize because they must
simultaneously learn where to attend, what actions to take, and how to execute
them. We argue that high-level reasoning about where and what can be offloaded
to vision-language models (VLMs), leaving policies to specialize in how to act.
We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which
fine-tunes VLMs to predict a unified point-based intermediate representation:
1. end-effector paths specifying what actions to take, and 2. task-relevant
masks indicating where to focus. These annotations are directly overlaid onto
robot observations, making the representation policy-agnostic and transferable
across architectures. To enable scalable training, we introduce an automatic
annotation pipeline, generating labeled data across 20+ robot datasets spanning
9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot
generalization, including a 41.4x real-world improvement for a 3D policy
trained only in simulation, and 2-3.5x gains for both large VLAs and small
manipulation policies. By letting VLMs absorb semantic and visual complexity,
PEEK equips manipulation policies with the minimal cues they need--where, what,
and how. Website at https://peek-robot.github.io/.