ChatPaper.aiChatPaper

MOSAIC: Ein modulares System für assistives und interaktives Kochen

MOSAIC: A Modular System for Assistive and Interactive Cooking

February 29, 2024
Autoren: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI

Zusammenfassung

Wir stellen MOSAIC vor, eine modulare Architektur für Haushaltsroboter, um komplexe kollaborative Aufgaben zu bewältigen, wie beispielsweise das Kochen mit alltäglichen Nutzern. MOSAIC arbeitet eng mit Menschen zusammen, interagiert mit Nutzern in natürlicher Sprache, koordiniert mehrere Roboter und verwaltet ein offenes Vokabular von Alltagsgegenständen. Im Kern nutzt MOSAIC Modularität: Es greift auf mehrere groß angelegte, vortrainierte Modelle für allgemeine Aufgaben wie Spracherkennung und Bilderkennung zurück, während es gleichzeitig schlanke Module für die aufgabenspezifische Steuerung einsetzt. Wir evaluieren MOSAIC umfassend in 60 End-to-End-Versuchen, bei denen zwei Roboter mit einem menschlichen Nutzer zusammenarbeiten, um eine Kombination aus 6 Rezepten zuzubereiten. Zusätzlich testen wir einzelne Module intensiv mit 180 Episoden visuomotorischen Greifens, 60 Episoden der Vorhersage menschlicher Bewegungen und 46 Online-Nutzerbewertungen des Aufgabenplaners. Wir zeigen, dass MOSAIC effizient mit Menschen zusammenarbeiten kann, indem das Gesamtsystem End-to-End mit einem echten menschlichen Nutzer betrieben wird und 68,3 % (41/60) der kollaborativen Kochversuche mit 6 verschiedenen Rezepten erfolgreich abschließt, wobei die Unteraufgabenabschlussrate bei 91,6 % liegt. Abschließend diskutieren wir die Grenzen des aktuellen Systems und spannende offene Herausforderungen in diesem Bereich. Die Projektwebsite ist unter https://portal-cornell.github.io/MOSAIC/ zu finden.
English
We present MOSAIC, a modular architecture for home robots to perform complex collaborative tasks, such as cooking with everyday users. MOSAIC tightly collaborates with humans, interacts with users using natural language, coordinates multiple robots, and manages an open vocabulary of everyday objects. At its core, MOSAIC employs modularity: it leverages multiple large-scale pre-trained models for general tasks like language and image recognition, while using streamlined modules designed for task-specific control. We extensively evaluate MOSAIC on 60 end-to-end trials where two robots collaborate with a human user to cook a combination of 6 recipes. We also extensively test individual modules with 180 episodes of visuomotor picking, 60 episodes of human motion forecasting, and 46 online user evaluations of the task planner. We show that MOSAIC is able to efficiently collaborate with humans by running the overall system end-to-end with a real human user, completing 68.3% (41/60) collaborative cooking trials of 6 different recipes with a subtask completion rate of 91.6%. Finally, we discuss the limitations of the current system and exciting open challenges in this domain. The project's website is at https://portal-cornell.github.io/MOSAIC/
PDF261December 15, 2024