ChatPaper.aiChatPaper

PEEK: Направляющие и минимальные визуальные представления для обобщения стратегий манипуляции роботов в условиях нулевого опыта

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

September 22, 2025
Авторы: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
cs.AI

Аннотация

Политики роботизированного манипулирования часто не справляются с обобщением, поскольку им необходимо одновременно обучаться тому, куда направлять внимание, какие действия выполнять и как их осуществлять. Мы утверждаем, что высокоуровневое рассуждение о том, где и что делать, можно переложить на модели, работающие с визуальными и языковыми данными (VLMs), оставив политикам специализацию на том, как действовать. Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints), который дообучает VLMs для предсказания унифицированного промежуточного представления на основе точек: 1. траектории конечного эффектора, указывающие, какие действия выполнять, и 2. маски, релевантные задаче, указывающие, на чем сосредоточиться. Эти аннотации напрямую накладываются на наблюдения робота, делая представление независимым от политики и переносимым между архитектурами. Для обеспечения масштабируемого обучения мы вводим автоматизированный конвейер аннотирования, генерирующий размеченные данные на основе более чем 20 наборов данных для роботов, охватывающих 9 различных реализаций. В реальных оценках PEEK стабильно улучшает обобщение с нулевым обучением, включая 41.4-кратное улучшение в реальном мире для 3D-политики, обученной только в симуляции, и 2-3.5-кратный прирост как для крупных VLAs, так и для небольших политик манипулирования. Позволяя VLMs поглощать семантическую и визуальную сложность, PEEK снабжает политики манипулирования минимальными подсказками, которые им необходимы — где, что и как. Сайт: https://peek-robot.github.io/.
English
Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.
PDF12September 24, 2025