PEEK: Representaciones Guías y Mínimas de Imágenes para la Generalización Zero-Shot de Políticas de Manipulación Robótica
PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
September 22, 2025
Autores: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI
Resumen
Las políticas de manipulación robótica a menudo fallan en generalizar porque deben aprender simultáneamente dónde enfocarse, qué acciones tomar y cómo ejecutarlas. Argumentamos que el razonamiento de alto nivel sobre el dónde y el qué puede delegarse a los modelos de visión y lenguaje (VLMs), permitiendo que las políticas se especialicen en el cómo actuar. Presentamos PEEK (Extracción de Puntos Clave Esenciales Independiente de la Política), que ajusta finamente los VLMs para predecir una representación intermedia unificada basada en puntos: 1. trayectorias del efector final que especifican qué acciones tomar, y 2. máscaras relevantes para la tarea que indican dónde enfocarse. Estas anotaciones se superponen directamente sobre las observaciones del robot, haciendo que la representación sea independiente de la política y transferible entre arquitecturas. Para permitir un entrenamiento escalable, introducimos una canalización de anotación automática, generando datos etiquetados en más de 20 conjuntos de datos de robots que abarcan 9 configuraciones. En evaluaciones del mundo real, PEEK mejora consistentemente la generalización zero-shot, incluyendo una mejora de 41.4x en el mundo real para una política 3D entrenada únicamente en simulación, y ganancias de 2-3.5x tanto para grandes VLAs como para pequeñas políticas de manipulación. Al permitir que los VLMs absorban la complejidad semántica y visual, PEEK equipa a las políticas de manipulación con las señales mínimas que necesitan: dónde, qué y cómo. Sitio web en https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must
simultaneously learn where to attend, what actions to take, and how to execute
them. We argue that high-level reasoning about where and what can be offloaded
to vision-language models (VLMs), leaving policies to specialize in how to act.
We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which
fine-tunes VLMs to predict a unified point-based intermediate representation:
1. end-effector paths specifying what actions to take, and 2. task-relevant
masks indicating where to focus. These annotations are directly overlaid onto
robot observations, making the representation policy-agnostic and transferable
across architectures. To enable scalable training, we introduce an automatic
annotation pipeline, generating labeled data across 20+ robot datasets spanning
9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot
generalization, including a 41.4x real-world improvement for a 3D policy
trained only in simulation, and 2-3.5x gains for both large VLAs and small
manipulation policies. By letting VLMs absorb semantic and visual complexity,
PEEK equips manipulation policies with the minimal cues they need--where, what,
and how. Website at https://peek-robot.github.io/.