Manipulação de Robô com Base em Aproveitamento de Oportunidades com Correspondência de Fluxo
Affordance-based Robot Manipulation with Flow Matching
September 2, 2024
Autores: Fan Zhang, Michael Gienger
cs.AI
Resumo
Apresentamos um framework para manipulação de robôs assistentes, que se concentra em dois desafios fundamentais: primeiro, adaptar de forma eficiente modelos em grande escala para tarefas de compreensão de affordances de cena em cascata, especialmente em cenários de vida diária nos quais a coleta de dados multitarefa envolvendo humanos requer esforço extenuante; segundo, aprender efetivamente trajetórias de robôs fundamentadas no modelo visual de affordance. Abordamos o primeiro desafio empregando um método de ajuste eficiente de prompts que antecede prompts de texto aprendíveis ao modelo de visão congelado para prever affordances de manipulação em cenários multitarefa. Em seguida, propomos aprender trajetórias de robôs guiadas por affordances em um método supervisionado de Correspondência de Fluxo. A correspondência de fluxo representa uma política visuomotora de robô como um processo condicional de fluir pontos de passagem aleatórios para trajetórias desejadas de robô. Por fim, introduzimos um conjunto de dados do mundo real com 10 tarefas em Atividades da Vida Diária para testar nosso framework. Nossa extensa avaliação destaca que o método de ajuste de prompts proposto para aprender affordances de manipulação com prompter de linguagem alcança desempenho competitivo e até supera outros protocolos de ajuste fino em escalas de dados, ao mesmo tempo em que satisfaz a eficiência de parâmetros. Aprender trajetórias multitarefa de robô com uma única política de correspondência de fluxo também resulta em desempenho consistentemente melhor do que métodos alternativos de clonagem de comportamento, especialmente considerando distribuições de ação de robô multimodais. Nosso framework unifica de forma contínua a aprendizagem do modelo de affordance e a geração de trajetórias com correspondência de fluxo para manipulação de robôs.
English
We present a framework for assistive robot manipulation, which focuses on two
fundamental challenges: first, efficiently adapting large-scale models to
downstream scene affordance understanding tasks, especially in daily living
scenarios where gathering multi-task data involving humans requires strenuous
effort; second, effectively learning robot trajectories by grounding the visual
affordance model. We tackle the first challenge by employing a
parameter-efficient prompt tuning method that prepends learnable text prompts
to the frozen vision model to predict manipulation affordances in multi-task
scenarios. Then we propose to learn robot trajectories guided by affordances in
a supervised Flow Matching method. Flow matching represents a robot visuomotor
policy as a conditional process of flowing random waypoints to desired robot
trajectories. Finally, we introduce a real-world dataset with 10 tasks across
Activities of Daily Living to test our framework. Our extensive evaluation
highlights that the proposed prompt tuning method for learning manipulation
affordance with language prompter achieves competitive performance and even
outperforms other finetuning protocols across data scales, while satisfying
parameter efficiency. Learning multi-task robot trajectories with a single flow
matching policy also leads to consistently better performance than alternative
behavior cloning methods, especially given multimodal robot action
distributions. Our framework seamlessly unifies affordance model learning and
trajectory generation with flow matching for robot manipulation.Summary
AI-Generated Summary