ChatPaper.aiChatPaper

Обучение обобщаемых признаковых полей для мобильного манипулирования

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Авторы: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Аннотация

Одной из открытых проблем в области мобильной манипуляции является вопрос о том, как представлять объекты и сцены единообразно, чтобы роботы могли использовать это как для навигации в окружающей среде, так и для манипулирования объектами. Последнее требует улавливания сложной геометрии при понимании тонких семантических оттенков, в то время как первое включает в себя улавливание сложности, присущей обширному физическому масштабу. В данной работе мы представляем GeFF (Generalizable Feature Fields) - сценовое обобщенное нейронное поле признаков, которое выступает в качестве единой репрезентации как для навигации, так и для манипуляции, работающей в реальном времени. Для этого мы рассматриваем генеративный синтез нового вида как задачу предварительного обучения, а затем выравниваем полученные богатые сценовые априори с естественным языком с помощью дистилляции признаков CLIP. Мы демонстрируем эффективность этого подхода, применяя GeFF на четырехногом роботе с манипулятором. Мы оцениваем способность GeFF к обобщению на объекты из открытого набора, а также время выполнения при выполнении мобильной манипуляции с открытым словарем в динамичных сценах.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Summary

AI-Generated Summary

PDF81December 15, 2024