Manipulación de robots basada en affordances con coincidencia de flujo.
Affordance-based Robot Manipulation with Flow Matching
September 2, 2024
Autores: Fan Zhang, Michael Gienger
cs.AI
Resumen
Presentamos un marco para la manipulación de robots asistentes, que se centra en dos desafíos fundamentales: primero, adaptar eficientemente modelos a gran escala a tareas de comprensión de la capacidad de acción de escenas secundarias, especialmente en escenarios de la vida diaria donde recopilar datos multitarea que involucren a humanos requiere un esfuerzo arduo; segundo, aprender de manera efectiva trayectorias de robots fundamentadas en el modelo visual de la capacidad de acción. Abordamos el primer desafío empleando un método de ajuste de indicaciones eficiente en parámetros que antepone indicaciones de texto aprendibles al modelo de visión congelado para predecir capacidades de manipulación en escenarios multitarea. Luego proponemos aprender trayectorias de robots guiadas por capacidades de acción en un método supervisado de Coincidencia de Flujo. La coincidencia de flujo representa una política visuomotora de robot como un proceso condicional de flujo de puntos de referencia aleatorios hacia trayectorias de robot deseadas. Finalmente, presentamos un conjunto de datos del mundo real con 10 tareas en Actividades de la Vida Diaria para probar nuestro marco. Nuestra extensa evaluación destaca que el método propuesto de ajuste de indicaciones para aprender la capacidad de acción de manipulación con un indicador de lenguaje logra un rendimiento competitivo e incluso supera a otros protocolos de ajuste fino en diferentes escalas de datos, al tiempo que satisface la eficiencia de parámetros. Aprender trayectorias multitarea de robots con una única política de coincidencia de flujo también conduce a un rendimiento consistentemente mejor que los métodos alternativos de clonación de comportamiento, especialmente dadas las distribuciones de acciones de robots multimodales. Nuestro marco unifica de manera fluida el aprendizaje del modelo de capacidad de acción y la generación de trayectorias con coincidencia de flujo para la manipulación de robots.
English
We present a framework for assistive robot manipulation, which focuses on two
fundamental challenges: first, efficiently adapting large-scale models to
downstream scene affordance understanding tasks, especially in daily living
scenarios where gathering multi-task data involving humans requires strenuous
effort; second, effectively learning robot trajectories by grounding the visual
affordance model. We tackle the first challenge by employing a
parameter-efficient prompt tuning method that prepends learnable text prompts
to the frozen vision model to predict manipulation affordances in multi-task
scenarios. Then we propose to learn robot trajectories guided by affordances in
a supervised Flow Matching method. Flow matching represents a robot visuomotor
policy as a conditional process of flowing random waypoints to desired robot
trajectories. Finally, we introduce a real-world dataset with 10 tasks across
Activities of Daily Living to test our framework. Our extensive evaluation
highlights that the proposed prompt tuning method for learning manipulation
affordance with language prompter achieves competitive performance and even
outperforms other finetuning protocols across data scales, while satisfying
parameter efficiency. Learning multi-task robot trajectories with a single flow
matching policy also leads to consistently better performance than alternative
behavior cloning methods, especially given multimodal robot action
distributions. Our framework seamlessly unifies affordance model learning and
trajectory generation with flow matching for robot manipulation.Summary
AI-Generated Summary