PEEK: Representaciones Guías y Mínimas de Imágenes para la Generalización Zero-Shot de Políticas de Manipulación Robótica

Resumen

Las políticas de manipulación robótica a menudo fallan en generalizar porque deben aprender simultáneamente dónde enfocarse, qué acciones tomar y cómo ejecutarlas. Argumentamos que el razonamiento de alto nivel sobre el dónde y el qué puede delegarse a los modelos de visión y lenguaje (VLMs), permitiendo que las políticas se especialicen en el cómo actuar. Presentamos PEEK (Extracción de Puntos Clave Esenciales Independiente de la Política), que ajusta finamente los VLMs para predecir una representación intermedia unificada basada en puntos: 1. trayectorias del efector final que especifican qué acciones tomar, y 2. máscaras relevantes para la tarea que indican dónde enfocarse. Estas anotaciones se superponen directamente sobre las observaciones del robot, haciendo que la representación sea independiente de la política y transferible entre arquitecturas. Para permitir un entrenamiento escalable, introducimos una canalización de anotación automática, generando datos etiquetados en más de 20 conjuntos de datos de robots que abarcan 9 configuraciones. En evaluaciones del mundo real, PEEK mejora consistentemente la generalización zero-shot, incluyendo una mejora de 41.4x en el mundo real para una política 3D entrenada únicamente en simulación, y ganancias de 2-3.5x tanto para grandes VLAs como para pequeñas políticas de manipulación. Al permitir que los VLMs absorban la complejidad semántica y visual, PEEK equipa a las políticas de manipulación con las señales mínimas que necesitan: dónde, qué y cómo. Sitio web en https://peek-robot.github.io/.

English

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.

PEEK: Representaciones Guías y Mínimas de Imágenes para la Generalización Zero-Shot de Políticas de Manipulación Robótica

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

Resumen

Support