Manipulation de robot basée sur les affordances avec appariement de flux
Affordance-based Robot Manipulation with Flow Matching
September 2, 2024
Auteurs: Fan Zhang, Michael Gienger
cs.AI
Résumé
Nous présentons un cadre pour la manipulation assistée par robot, qui se concentre sur deux défis fondamentaux : premièrement, adapter efficacement des modèles à grande échelle pour des tâches de compréhension des affordances de scène en aval, notamment dans des scénarios de la vie quotidienne où la collecte de données multi-tâches impliquant des humains nécessite des efforts considérables ; deuxièmement, apprendre efficacement les trajectoires de robot en ancrant le modèle d'affordance visuelle. Nous abordons le premier défi en utilisant une méthode d'ajustement de prompteur efficace en termes de paramètres qui ajoute des prompts textuels apprenables au modèle de vision figé pour prédire les affordances de manipulation dans des scénarios multi-tâches. Ensuite, nous proposons d'apprendre les trajectoires de robot guidées par les affordances dans une méthode supervisée de correspondance de flux. La correspondance de flux représente une politique visuo-motrice de robot comme un processus conditionnel de faire circuler des points de passage aléatoires vers des trajectoires de robot souhaitées. Enfin, nous introduisons un ensemble de données du monde réel avec 10 tâches liées aux Activités de la Vie Quotidienne pour tester notre cadre. Notre évaluation approfondie met en évidence que la méthode d'ajustement de prompteur proposée pour apprendre l'affordance de manipulation avec un prompteur de langage atteint des performances compétitives et dépasse même d'autres protocoles de fine-tuning à travers des échelles de données, tout en satisfaisant l'efficacité des paramètres. Apprendre des trajectoires de robot multi-tâches avec une seule politique de correspondance de flux conduit également à des performances systématiquement meilleures que les méthodes alternatives de clonage de comportement, surtout étant donné les distributions d'actions de robot multimodales. Notre cadre unifie de manière transparente l'apprentissage du modèle d'affordance et la génération de trajectoires avec la correspondance de flux pour la manipulation de robot.
English
We present a framework for assistive robot manipulation, which focuses on two
fundamental challenges: first, efficiently adapting large-scale models to
downstream scene affordance understanding tasks, especially in daily living
scenarios where gathering multi-task data involving humans requires strenuous
effort; second, effectively learning robot trajectories by grounding the visual
affordance model. We tackle the first challenge by employing a
parameter-efficient prompt tuning method that prepends learnable text prompts
to the frozen vision model to predict manipulation affordances in multi-task
scenarios. Then we propose to learn robot trajectories guided by affordances in
a supervised Flow Matching method. Flow matching represents a robot visuomotor
policy as a conditional process of flowing random waypoints to desired robot
trajectories. Finally, we introduce a real-world dataset with 10 tasks across
Activities of Daily Living to test our framework. Our extensive evaluation
highlights that the proposed prompt tuning method for learning manipulation
affordance with language prompter achieves competitive performance and even
outperforms other finetuning protocols across data scales, while satisfying
parameter efficiency. Learning multi-task robot trajectories with a single flow
matching policy also leads to consistently better performance than alternative
behavior cloning methods, especially given multimodal robot action
distributions. Our framework seamlessly unifies affordance model learning and
trajectory generation with flow matching for robot manipulation.Summary
AI-Generated Summary