ChatPaper.aiChatPaper

Робототехника на основе возможностей с сопоставлением потока.

Affordance-based Robot Manipulation with Flow Matching

September 2, 2024
Авторы: Fan Zhang, Michael Gienger
cs.AI

Аннотация

Мы представляем фреймворк для помощи в манипулировании роботами, который фокусируется на двух основных вызовах: эффективной адаптации масштабных моделей к задачам понимания возможностей сцены на практике, особенно в повседневных сценариях, где сбор мультитасковых данных, включающих в себя людей, требует значительных усилий; второй вызов заключается в эффективном обучении траекторий робота на основе визуальной модели возможностей. Мы решаем первую проблему, используя метод эффективной настройки подсказок, который добавляет обучаемые текстовые подсказки к замороженной модели зрения для предсказания возможностей манипуляции в мультитасковых сценариях. Затем мы предлагаем обучать траектории робота, направляемые возможностями, с помощью метода сопоставления потоков. Сопоставление потоков представляет политику робота визуомоторного управления как условный процесс направления случайных точек маршрута к желаемым траекториям робота. Наконец, мы представляем набор данных из реального мира с 10 задачами по ежедневным действиям для тестирования нашего фреймворка. Наше обширное оценивание показывает, что предложенный метод настройки подсказок для обучения возможностей манипуляции с использованием текстовых подсказок достигает конкурентоспособной производительности и даже превосходит другие протоколы донастройки на различных масштабах данных, сохраняя при этом параметрическую эффективность. Обучение мультитасковых траекторий робота с помощью единой политики сопоставления потоков также приводит к последовательно лучшей производительности по сравнению с альтернативными методами клонирования поведения, особенно учитывая мультимодальные распределения действий робота. Наш фреймворк плавно объединяет обучение модели возможностей и генерацию траекторий с помощью сопоставления потоков для манипуляции роботом.
English
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with a single flow matching policy also leads to consistently better performance than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.

Summary

AI-Generated Summary

PDF192November 16, 2024