ChatPaper.aiChatPaper

Робот видит, робот делает: имитация манипулирования артикулированным объектом с монокулярной реконструкцией в 4D

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

September 26, 2024
Авторы: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI

Аннотация

Люди могут научиться манипулировать новыми объектами, просто наблюдая за другими; предоставление роботам возможности учиться на таких демонстрациях позволило бы создать естественный интерфейс для определения новых поведенческих моделей. В данной работе разрабатывается метод Robot See Robot Do (RSRD) для имитации артикулированной манипуляции объектами по одному монохромному RGB-видео демонстрации человека и одному статическому многоплоскостному сканированию объекта. Сначала мы предлагаем 4D Дифференцируемые Модели Частей (4D-DPM), метод восстановления 3D движения части от монохромного видео с дифференцируемым рендерингом. Этот анализно-синтезный подход использует полевые функции, сосредоточенные на частях, в итеративной оптимизации, что позволяет использовать геометрические регуляризаторы для восстановления 3D движений только из одного видео. Имея такое 4D восстановление, робот реплицирует траектории объекта, планируя двуручные движения рук, которые вызывают движение демонстрируемой части объекта. Представляя демонстрации как траектории, сосредоточенные на частях, RSRD фокусируется на воспроизведении намеренного поведения демонстрации, учитывая собственные морфологические ограничения робота, вместо попыток воспроизвести движение руки. Мы оцениваем точность трекинга 3D 4D-DPM на аннотированных данными о правильных траекториях частей и производительность физического исполнения RSRD на 9 объектах в каждом из 10 испытаний на двуручном роботе YuMi. Каждая фаза RSRD достигает среднего уровня успешности 87%, что дает общий уровень успешности 60% на 90 испытаниях. Заметим, что это достигается с использованием только полевых функций, извлеченных из крупных предварительно обученных моделей зрения - без какого-либо специфического обучения, донастройки, сбора набора данных или аннотации. Страница проекта: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration's intended behavior while considering the robot's own morphological limits, rather than attempting to reproduce the hand's motion. We evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD's physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models -- without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io

Summary

AI-Generated Summary

PDF92November 16, 2024