PEEK: Representações Visuais Orientadoras e Mínimas para Generalização Zero-Shot em Políticas de Manipulação Robótica
PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
September 22, 2025
Autores: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI
Resumo
As políticas de manipulação robótica frequentemente falham em generalizar porque precisam aprender simultaneamente onde focar, quais ações tomar e como executá-las. Argumentamos que o raciocínio de alto nível sobre onde e o que pode ser delegado a modelos de visão e linguagem (VLMs), permitindo que as políticas se especializem em como agir. Apresentamos o PEEK (Policy-agnostic Extraction of Essential Keypoints), que ajusta finamente VLMs para prever uma representação intermediária unificada baseada em pontos: 1. trajetórias do efetuador final especificando quais ações tomar, e 2. máscaras relevantes à tarefa indicando onde focar. Essas anotações são sobrepostas diretamente nas observações do robô, tornando a representação independente da política e transferível entre arquiteturas. Para permitir treinamento escalável, introduzimos um pipeline de anotação automática, gerando dados rotulados em mais de 20 conjuntos de dados de robôs abrangendo 9 diferentes implementações. Em avaliações do mundo real, o PEEK consistentemente melhora a generalização zero-shot, incluindo uma melhoria de 41,4x no mundo real para uma política 3D treinada apenas em simulação, e ganhos de 2-3,5x tanto para grandes VLAs quanto para pequenas políticas de manipulação. Ao permitir que VLMs absorvam a complexidade semântica e visual, o PEEK equipa as políticas de manipulação com os mínimos indícios necessários—onde, o que e como. Site em https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must
simultaneously learn where to attend, what actions to take, and how to execute
them. We argue that high-level reasoning about where and what can be offloaded
to vision-language models (VLMs), leaving policies to specialize in how to act.
We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which
fine-tunes VLMs to predict a unified point-based intermediate representation:
1. end-effector paths specifying what actions to take, and 2. task-relevant
masks indicating where to focus. These annotations are directly overlaid onto
robot observations, making the representation policy-agnostic and transferable
across architectures. To enable scalable training, we introduce an automatic
annotation pipeline, generating labeled data across 20+ robot datasets spanning
9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot
generalization, including a 41.4x real-world improvement for a 3D policy
trained only in simulation, and 2-3.5x gains for both large VLAs and small
manipulation policies. By letting VLMs absorb semantic and visual complexity,
PEEK equips manipulation policies with the minimal cues they need--where, what,
and how. Website at https://peek-robot.github.io/.