ChatPaper.aiChatPaper

Manipulação de Robô com Base em Aproveitamento de Oportunidades com Correspondência de Fluxo

Affordance-based Robot Manipulation with Flow Matching

September 2, 2024
Autores: Fan Zhang, Michael Gienger
cs.AI

Resumo

Apresentamos um framework para manipulação de robôs assistentes, que se concentra em dois desafios fundamentais: primeiro, adaptar de forma eficiente modelos em grande escala para tarefas de compreensão de affordances de cena em cascata, especialmente em cenários de vida diária nos quais a coleta de dados multitarefa envolvendo humanos requer esforço extenuante; segundo, aprender efetivamente trajetórias de robôs fundamentadas no modelo visual de affordance. Abordamos o primeiro desafio empregando um método de ajuste eficiente de prompts que antecede prompts de texto aprendíveis ao modelo de visão congelado para prever affordances de manipulação em cenários multitarefa. Em seguida, propomos aprender trajetórias de robôs guiadas por affordances em um método supervisionado de Correspondência de Fluxo. A correspondência de fluxo representa uma política visuomotora de robô como um processo condicional de fluir pontos de passagem aleatórios para trajetórias desejadas de robô. Por fim, introduzimos um conjunto de dados do mundo real com 10 tarefas em Atividades da Vida Diária para testar nosso framework. Nossa extensa avaliação destaca que o método de ajuste de prompts proposto para aprender affordances de manipulação com prompter de linguagem alcança desempenho competitivo e até supera outros protocolos de ajuste fino em escalas de dados, ao mesmo tempo em que satisfaz a eficiência de parâmetros. Aprender trajetórias multitarefa de robô com uma única política de correspondência de fluxo também resulta em desempenho consistentemente melhor do que métodos alternativos de clonagem de comportamento, especialmente considerando distribuições de ação de robô multimodais. Nosso framework unifica de forma contínua a aprendizagem do modelo de affordance e a geração de trajetórias com correspondência de fluxo para manipulação de robôs.
English
We present a framework for assistive robot manipulation, which focuses on two fundamental challenges: first, efficiently adapting large-scale models to downstream scene affordance understanding tasks, especially in daily living scenarios where gathering multi-task data involving humans requires strenuous effort; second, effectively learning robot trajectories by grounding the visual affordance model. We tackle the first challenge by employing a parameter-efficient prompt tuning method that prepends learnable text prompts to the frozen vision model to predict manipulation affordances in multi-task scenarios. Then we propose to learn robot trajectories guided by affordances in a supervised Flow Matching method. Flow matching represents a robot visuomotor policy as a conditional process of flowing random waypoints to desired robot trajectories. Finally, we introduce a real-world dataset with 10 tasks across Activities of Daily Living to test our framework. Our extensive evaluation highlights that the proposed prompt tuning method for learning manipulation affordance with language prompter achieves competitive performance and even outperforms other finetuning protocols across data scales, while satisfying parameter efficiency. Learning multi-task robot trajectories with a single flow matching policy also leads to consistently better performance than alternative behavior cloning methods, especially given multimodal robot action distributions. Our framework seamlessly unifies affordance model learning and trajectory generation with flow matching for robot manipulation.

Summary

AI-Generated Summary

PDF192November 16, 2024