ChatPaper.aiChatPaper

Manipolazione di robot basata sull'affordance con corrispondenza di flusso

Affordance-based Robot Manipulation with Flow Matching

September 2, 2024
Autori: Fan Zhang, Michael Gienger
cs.AI

Abstract

Presentiamo un framework per la manipolazione assistita da robot, che si concentra su due sfide fondamentali: in primo luogo, adattare efficientemente modelli su larga scala per compiti di comprensione delle affordance della scena, specialmente in scenari di vita quotidiana in cui raccogliere dati multi-task che coinvolgono esseri umani richiede uno sforzo considerevole; in secondo luogo, imparare efficacemente le traiettorie del robot ancorandosi al modello di affordance visiva. Affrontiamo la prima sfida impiegando un metodo di sintonizzazione efficiente dei parametri che antepone prompt di testo apprendibili al modello di visione congelato per prevedere le affordance di manipolazione in scenari multi-task. Successivamente proponiamo di imparare le traiettorie del robot guidate dalle affordance in un metodo di corrispondenza di flusso supervisionato. La corrispondenza di flusso rappresenta una politica visuomotoria del robot come un processo condizionato di flusso di waypoint casuali verso traiettorie desiderate del robot. Infine, presentiamo un dataset del mondo reale con 10 compiti relativi alle Attività della Vita Quotidiana per testare il nostro framework. La nostra ampia valutazione evidenzia che il metodo proposto di sintonizzazione dei prompt per imparare le affordance di manipolazione con un prompter di linguaggio raggiunge prestazioni competitive e supera addirittura altri protocolli di fine-tuning su scale di dati, garantendo al contempo efficienza dei parametri. Imparare le traiettorie del robot multi-task con una singola politica di corrispondenza di flusso porta anche a prestazioni costantemente migliori rispetto ai metodi alternativi di clonazione del comportamento, specialmente date le distribuzioni di azioni di robot multimodali. Il nostro framework unifica in modo fluido l'apprendimento del modello di affordance e la generazione di traiettorie con la corrispondenza di flusso per la manipolazione del robot.
English
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with a single flow matching policy also leads to consistently better performance than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.
PDF202November 16, 2024