MOSAIC: Een modulair systeem voor ondersteunend en interactief koken
MOSAIC: A Modular System for Assistive and Interactive Cooking
February 29, 2024
Auteurs: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI
Samenvatting
We presenteren MOSAIC, een modulaire architectuur voor huishoudrobots om complexe samenwerkende taken uit te voeren, zoals koken met alledaagse gebruikers. MOSAIC werkt nauw samen met mensen, communiceert met gebruikers via natuurlijke taal, coördineert meerdere robots en beheert een open vocabulaire van alledaagse objecten. In de kern maakt MOSAIC gebruik van modulariteit: het benut meerdere grootschalige vooraf getrainde modellen voor algemene taken zoals taal- en beeldherkenning, terwijl het gestroomlijnde modules gebruikt die zijn ontworpen voor taakspecifieke controle. We evalueren MOSAIC uitgebreid in 60 end-to-end tests waarbij twee robots samenwerken met een menselijke gebruiker om een combinatie van 6 recepten te bereiden. We testen ook individuele modules uitgebreid met 180 episodes van visuomotorisch oppakken, 60 episodes van voorspelling van menselijke bewegingen en 46 online gebruikersevaluaties van de taakplanner. We tonen aan dat MOSAIC efficiënt kan samenwerken met mensen door het volledige systeem end-to-end te laten draaien met een echte menselijke gebruiker, waarbij 68,3% (41/60) van de samenwerkende kooktests van 6 verschillende recepten wordt voltooid met een subtakvoltooiingspercentage van 91,6%. Tot slot bespreken we de beperkingen van het huidige systeem en de spannende open uitdagingen in dit domein. De projectwebsite is te vinden op https://portal-cornell.github.io/MOSAIC/.
English
We present MOSAIC, a modular architecture for home robots to perform complex
collaborative tasks, such as cooking with everyday users. MOSAIC tightly
collaborates with humans, interacts with users using natural language,
coordinates multiple robots, and manages an open vocabulary of everyday
objects. At its core, MOSAIC employs modularity: it leverages multiple
large-scale pre-trained models for general tasks like language and image
recognition, while using streamlined modules designed for task-specific
control. We extensively evaluate MOSAIC on 60 end-to-end trials where two
robots collaborate with a human user to cook a combination of 6 recipes. We
also extensively test individual modules with 180 episodes of visuomotor
picking, 60 episodes of human motion forecasting, and 46 online user
evaluations of the task planner. We show that MOSAIC is able to efficiently
collaborate with humans by running the overall system end-to-end with a real
human user, completing 68.3% (41/60) collaborative cooking trials of 6
different recipes with a subtask completion rate of 91.6%. Finally, we discuss
the limitations of the current system and exciting open challenges in this
domain. The project's website is at https://portal-cornell.github.io/MOSAIC/