ChatPaper.aiChatPaper

Affordance-gestuurde Robotmanipulatie met Flow Matching

Affordance-based Robot Manipulation with Flow Matching

September 2, 2024
Auteurs: Fan Zhang, Michael Gienger
cs.AI

Samenvatting

We presenteren een raamwerk voor ondersteunende robotmanipulatie, dat zich richt op twee fundamentele uitdagingen: ten eerste, het efficiënt aanpassen van grootschalige modellen aan downstream taken voor het begrijpen van scene-affordances, vooral in dagelijkse leefscenario's waar het verzamelen van multi-task data met betrekking tot mensen veel inspanning vergt; ten tweede, het effectief leren van robot trajecten door het visuele affordance model te verankeren. We pakken de eerste uitdaging aan door een parameter-efficiënte prompt tuning methode te gebruiken die leerbare tekstprompts toevoegt aan het bevroren visiemodel om manipulatie-affordances in multi-task scenario's te voorspellen. Vervolgens stellen we voor om robot trajecten te leren die worden geleid door affordances in een gesuperviseerde Flow Matching methode. Flow matching vertegenwoordigt een robot visuomotor beleid als een conditioneel proces van het laten stromen van willekeurige waypoints naar gewenste robot trajecten. Tot slot introduceren we een real-world dataset met 10 taken uit het dagelijks leven om ons raamwerk te testen. Onze uitgebreide evaluatie benadrukt dat de voorgestelde prompt tuning methode voor het leren van manipulatie-affordances met een taalprompter competitieve prestaties behaalt en zelfs andere finetuning protocollen overtreft over verschillende dataschaal, terwijl parameter efficiëntie wordt gewaarborgd. Het leren van multi-task robot trajecten met een enkel flow matching beleid leidt ook tot consistent betere prestaties dan alternatieve behavior cloning methoden, vooral gezien multimodale robot actie distributies. Ons raamwerk verenigt naadloos het leren van affordance modellen en traject generatie met flow matching voor robotmanipulatie.
English
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with a single flow matching policy also leads to consistently better performance than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.

Summary

AI-Generated Summary

PDF192November 16, 2024