ChatPaper.aiChatPaper

Roboter-Manipulation basierend auf Affordanzen mit Flussabgleich

Affordance-based Robot Manipulation with Flow Matching

September 2, 2024
Autoren: Fan Zhang, Michael Gienger
cs.AI

Zusammenfassung

Wir präsentieren ein Framework für die assistierte Roboter-Manipulation, das sich auf zwei grundlegende Herausforderungen konzentriert: Erstens die effiziente Anpassung von groß angelegten Modellen an nachgelagerte Szenen-Affordanzaufgaben, insbesondere in Alltagsszenarien, in denen die Erfassung von Multi-Task-Daten mit Menschen einen erheblichen Aufwand erfordert; und zweitens das effektive Erlernen von Roboter-Trajektorien durch Verankerung des visuellen Affordanzmodells. Die erste Herausforderung wird durch die Verwendung einer parameter-effizienten Prompt-Anpassungsmethode angegangen, die erlernbare Text-Prompts dem eingefrorenen Vision-Modell voranstellt, um Manipulations-Affordanzen in Multi-Task-Szenarien vorherzusagen. Anschließend schlagen wir vor, Roboter-Trajektorien zu erlernen, die durch Affordanzen in einer überwachten Flussabgleich-Methode geleitet werden. Flussabgleich stellt eine Roboter-Visuomotor-Politik als einen bedingten Prozess dar, bei dem zufällige Wegpunkte zu gewünschten Roboter-Trajektorien fließen. Schließlich führen wir einen realen Datensatz mit 10 Aufgaben aus den Aktivitäten des täglichen Lebens ein, um unser Framework zu testen. Unsere umfangreiche Evaluation zeigt, dass die vorgeschlagene Prompt-Anpassungsmethode zur Erlernung von Manipulations-Affordanzen mit Sprachprompter eine wettbewerbsfähige Leistung erbringt und sogar andere Feinabstimmungsprotokolle über verschiedene Datenskalen hinweg übertrifft, während die Parameter-Effizienz gewährleistet ist. Das Erlernen von Multi-Task-Roboter-Trajektorien mit einer einzigen Flussabgleich-Politik führt auch zu durchweg besseren Leistungen als alternative Verhaltensklonmethoden, insbesondere bei multimodalen Roboteraktionsverteilungen. Unser Framework vereint nahtlos das Lernen des Affordanzmodells und die Trajektorienerzeugung mit Flussabgleich für die Roboter-Manipulation.
English
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with a single flow matching policy also leads to consistently better performance than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.

Summary

AI-Generated Summary

PDF192November 16, 2024