MOSAIC: Un Sistema Modular para la Cocina Asistida e Interactiva
MOSAIC: A Modular System for Assistive and Interactive Cooking
February 29, 2024
Autores: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI
Resumen
Presentamos MOSAIC, una arquitectura modular para robots domésticos que permite realizar tareas colaborativas complejas, como cocinar junto a usuarios cotidianos. MOSAIC colabora estrechamente con humanos, interactúa con los usuarios mediante lenguaje natural, coordina múltiples robots y gestiona un vocabulario abierto de objetos de uso diario. En su núcleo, MOSAIC emplea modularidad: aprovecha múltiples modelos preentrenados a gran escala para tareas generales como el reconocimiento de lenguaje e imágenes, mientras utiliza módulos optimizados diseñados para el control específico de tareas. Evaluamos exhaustivamente MOSAIC en 60 pruebas de extremo a extremo donde dos robots colaboran con un usuario humano para cocinar una combinación de 6 recetas. También probamos extensamente los módulos individuales con 180 episodios de recogida visuomotora, 60 episodios de predicción de movimiento humano y 46 evaluaciones en línea del planificador de tareas con usuarios. Demostramos que MOSAIC es capaz de colaborar eficientemente con humanos al ejecutar el sistema completo de extremo a extremo con un usuario real, completando el 68.3% (41/60) de las pruebas de cocina colaborativa de 6 recetas diferentes con una tasa de finalización de subtareas del 91.6%. Finalmente, discutimos las limitaciones del sistema actual y los desafíos abiertos más interesantes en este dominio. El sitio web del proyecto se encuentra en https://portal-cornell.github.io/MOSAIC/.
English
We present MOSAIC, a modular architecture for home robots to perform complex
collaborative tasks, such as cooking with everyday users. MOSAIC tightly
collaborates with humans, interacts with users using natural language,
coordinates multiple robots, and manages an open vocabulary of everyday
objects. At its core, MOSAIC employs modularity: it leverages multiple
large-scale pre-trained models for general tasks like language and image
recognition, while using streamlined modules designed for task-specific
control. We extensively evaluate MOSAIC on 60 end-to-end trials where two
robots collaborate with a human user to cook a combination of 6 recipes. We
also extensively test individual modules with 180 episodes of visuomotor
picking, 60 episodes of human motion forecasting, and 46 online user
evaluations of the task planner. We show that MOSAIC is able to efficiently
collaborate with humans by running the overall system end-to-end with a real
human user, completing 68.3% (41/60) collaborative cooking trials of 6
different recipes with a subtask completion rate of 91.6%. Finally, we discuss
the limitations of the current system and exciting open challenges in this
domain. The project's website is at https://portal-cornell.github.io/MOSAIC/