ChatPaper.aiChatPaper

PEEK: Representações Visuais Orientadoras e Mínimas para Generalização Zero-Shot em Políticas de Manipulação Robótica

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

September 22, 2025
Autores: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI

Resumo

As políticas de manipulação robótica frequentemente falham em generalizar porque precisam aprender simultaneamente onde focar, quais ações tomar e como executá-las. Argumentamos que o raciocínio de alto nível sobre onde e o que pode ser delegado a modelos de visão e linguagem (VLMs), permitindo que as políticas se especializem em como agir. Apresentamos o PEEK (Policy-agnostic Extraction of Essential Keypoints), que ajusta finamente VLMs para prever uma representação intermediária unificada baseada em pontos: 1. trajetórias do efetuador final especificando quais ações tomar, e 2. máscaras relevantes à tarefa indicando onde focar. Essas anotações são sobrepostas diretamente nas observações do robô, tornando a representação independente da política e transferível entre arquiteturas. Para permitir treinamento escalável, introduzimos um pipeline de anotação automática, gerando dados rotulados em mais de 20 conjuntos de dados de robôs abrangendo 9 diferentes implementações. Em avaliações do mundo real, o PEEK consistentemente melhora a generalização zero-shot, incluindo uma melhoria de 41,4x no mundo real para uma política 3D treinada apenas em simulação, e ganhos de 2-3,5x tanto para grandes VLAs quanto para pequenas políticas de manipulação. Ao permitir que VLMs absorvam a complexidade semântica e visual, o PEEK equipa as políticas de manipulação com os mínimos indícios necessários—onde, o que e como. Site em https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.
PDF12September 24, 2025