PEEK: 로봇 조작 정책의 제로샷 일반화를 위한 가이드 및 최소 이미지 표현
PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
September 22, 2025
저자: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI
초록
로봇 조작 정책은 종종 주의를 기울여야 할 위치, 수행해야 할 동작, 그리고 이를 실행하는 방법을 동시에 학습해야 하기 때문에 일반화에 실패하는 경우가 많습니다. 우리는 어디에 주의를 기울이고 무엇을 해야 하는지에 대한 고수준의 추론을 시각-언어 모델(VLMs)에 위임함으로써 정책이 어떻게 행동해야 하는지에만 집중할 수 있도록 해야 한다고 주장합니다. 우리는 PEEK(Policy-agnostic Extraction of Essential Keypoints)를 제안하며, 이는 VLMs를 미세 조정하여 통합된 포인트 기반 중간 표현을 예측하도록 합니다: 1. 수행해야 할 동작을 지정하는 엔드 이펙터 경로, 2. 주의를 기울여야 할 위치를 나타내는 작업 관련 마스크. 이러한 주석은 로봇 관측에 직접 오버레이되어 표현을 정책에 독립적이고 아키텍처 간에 전이 가능하게 만듭니다. 확장 가능한 학습을 위해, 우리는 9가지 구현체에 걸친 20개 이상의 로봇 데이터셋에서 레이블이 지정된 데이터를 생성하는 자동 주석 파이프라인을 도입했습니다. 실제 환경 평가에서 PEEK는 제로샷 일반화를 지속적으로 향상시켰으며, 시뮬레이션에서만 학습된 3D 정책의 경우 실제 환경에서 41.4배의 개선을 보였고, 대형 VLAs와 소형 조작 정책 모두에서 2-3.5배의 성능 향상을 달성했습니다. VLMs가 시맨틱 및 시각적 복잡성을 흡수하도록 함으로써, PEEK는 조작 정책에 필요한 최소한의 단서—어디에, 무엇을, 어떻게—를 제공합니다. 웹사이트: https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must
simultaneously learn where to attend, what actions to take, and how to execute
them. We argue that high-level reasoning about where and what can be offloaded
to vision-language models (VLMs), leaving policies to specialize in how to act.
We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which
fine-tunes VLMs to predict a unified point-based intermediate representation:
1. end-effector paths specifying what actions to take, and 2. task-relevant
masks indicating where to focus. These annotations are directly overlaid onto
robot observations, making the representation policy-agnostic and transferable
across architectures. To enable scalable training, we introduce an automatic
annotation pipeline, generating labeled data across 20+ robot datasets spanning
9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot
generalization, including a 41.4x real-world improvement for a 3D policy
trained only in simulation, and 2-3.5x gains for both large VLAs and small
manipulation policies. By letting VLMs absorb semantic and visual complexity,
PEEK equips manipulation policies with the minimal cues they need--where, what,
and how. Website at https://peek-robot.github.io/.