ChatPaper.aiChatPaper

PEEK: Rappresentazioni Immagine Guida e Minime per la Generalizzazione Zero-Shot delle Politiche di Manipolazione Robotica

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

September 22, 2025
Autori: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI

Abstract

Le politiche di manipolazione robotica spesso falliscono nella generalizzazione perché devono apprendere simultaneamente dove focalizzare l'attenzione, quali azioni intraprendere e come eseguirle. Sosteniamo che il ragionamento di alto livello su "dove" e "cosa" può essere delegato ai modelli visione-linguaggio (VLMs), lasciando alle politiche il compito di specializzarsi nel "come" agire. Presentiamo PEEK (Policy-agnostic Extraction of Essential Keypoints), che perfeziona i VLMs per prevedere una rappresentazione intermedia unificata basata su punti: 1. percorsi dell'end-effector che specificano quali azioni intraprendere, e 2. maschere rilevanti per il compito che indicano dove focalizzarsi. Queste annotazioni sono sovrapposte direttamente alle osservazioni del robot, rendendo la rappresentazione indipendente dalla politica e trasferibile tra diverse architetture. Per abilitare un addestramento scalabile, introduciamo una pipeline di annotazione automatica, generando dati etichettati da oltre 20 dataset robotici che coprono 9 diverse configurazioni. Nelle valutazioni nel mondo reale, PEEK migliora costantemente la generalizzazione zero-shot, includendo un miglioramento di 41,4x nel mondo reale per una politica 3D addestrata solo in simulazione, e guadagni di 2-3,5x sia per grandi VLAs che per piccole politiche di manipolazione. Consentendo ai VLMs di assorbire la complessità semantica e visiva, PEEK fornisce alle politiche di manipolazione i segnali minimi necessari—dove, cosa e come. Sito web: https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.
PDF12September 24, 2025