PEEK: Representações Visuais Orientadoras e Mínimas para Generalização Zero-Shot em Políticas de Manipulação Robótica

Resumo

As políticas de manipulação robótica frequentemente falham em generalizar porque precisam aprender simultaneamente onde focar, quais ações tomar e como executá-las. Argumentamos que o raciocínio de alto nível sobre onde e o que pode ser delegado a modelos de visão e linguagem (VLMs), permitindo que as políticas se especializem em como agir. Apresentamos o PEEK (Policy-agnostic Extraction of Essential Keypoints), que ajusta finamente VLMs para prever uma representação intermediária unificada baseada em pontos: 1. trajetórias do efetuador final especificando quais ações tomar, e 2. máscaras relevantes à tarefa indicando onde focar. Essas anotações são sobrepostas diretamente nas observações do robô, tornando a representação independente da política e transferível entre arquiteturas. Para permitir treinamento escalável, introduzimos um pipeline de anotação automática, gerando dados rotulados em mais de 20 conjuntos de dados de robôs abrangendo 9 diferentes implementações. Em avaliações do mundo real, o PEEK consistentemente melhora a generalização zero-shot, incluindo uma melhoria de 41,4x no mundo real para uma política 3D treinada apenas em simulação, e ganhos de 2-3,5x tanto para grandes VLAs quanto para pequenas políticas de manipulação. Ao permitir que VLMs absorvam a complexidade semântica e visual, o PEEK equipa as políticas de manipulação com os mínimos indícios necessários—onde, o que e como. Site em https://peek-robot.github.io/.

English

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.

PEEK: Representações Visuais Orientadoras e Mínimas para Generalização Zero-Shot em Políticas de Manipulação Robótica

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

Resumo

Support