MOSAIC: Um Sistema Modular para Culinária Assistiva e Interativa
MOSAIC: A Modular System for Assistive and Interactive Cooking
February 29, 2024
Autores: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI
Resumo
Apresentamos o MOSAIC, uma arquitetura modular para robôs domésticos realizarem tarefas colaborativas complexas, como cozinhar com usuários cotidianos. O MOSAIC colabora estreitamente com humanos, interage com usuários por meio de linguagem natural, coordena múltiplos robôs e gerencia um vocabulário aberto de objetos do dia a dia. Em sua essência, o MOSAIC emprega modularidade: ele aproveita múltiplos modelos pré-treinados em larga escala para tarefas gerais, como reconhecimento de linguagem e imagens, enquanto utiliza módulos simplificados projetados para controle específico de tarefas. Avaliamos extensivamente o MOSAIC em 60 testes de ponta a ponta, onde dois robôs colaboram com um usuário humano para cozinhar uma combinação de 6 receitas. Também testamos amplamente módulos individuais com 180 episódios de coleta visuomotora, 60 episódios de previsão de movimento humano e 46 avaliações online de usuários do planejador de tarefas. Demonstramos que o MOSAIC é capaz de colaborar eficientemente com humanos ao executar o sistema completo de ponta a ponta com um usuário humano real, completando 68,3% (41/60) dos testes de cozinhar colaborativo de 6 receitas diferentes, com uma taxa de conclusão de subtarefas de 91,6%. Por fim, discutimos as limitações do sistema atual e os desafios empolgantes e em aberto neste domínio. O site do projeto está disponível em https://portal-cornell.github.io/MOSAIC/.
English
We present MOSAIC, a modular architecture for home robots to perform complex
collaborative tasks, such as cooking with everyday users. MOSAIC tightly
collaborates with humans, interacts with users using natural language,
coordinates multiple robots, and manages an open vocabulary of everyday
objects. At its core, MOSAIC employs modularity: it leverages multiple
large-scale pre-trained models for general tasks like language and image
recognition, while using streamlined modules designed for task-specific
control. We extensively evaluate MOSAIC on 60 end-to-end trials where two
robots collaborate with a human user to cook a combination of 6 recipes. We
also extensively test individual modules with 180 episodes of visuomotor
picking, 60 episodes of human motion forecasting, and 46 online user
evaluations of the task planner. We show that MOSAIC is able to efficiently
collaborate with humans by running the overall system end-to-end with a real
human user, completing 68.3% (41/60) collaborative cooking trials of 6
different recipes with a subtask completion rate of 91.6%. Finally, we discuss
the limitations of the current system and exciting open challenges in this
domain. The project's website is at https://portal-cornell.github.io/MOSAIC/