МОЗАИКА: Модульная система для помощи и интерактивного приготовления пищи
MOSAIC: A Modular System for Assistive and Interactive Cooking
February 29, 2024
Авторы: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI
Аннотация
Мы представляем MOSAIC, модульную архитектуру для домашних роботов, способных выполнять сложные совместные задачи, такие как готовка с обычными пользователями. MOSAIC тесно сотрудничает с людьми, взаимодействует с пользователями на естественном языке, координирует действия нескольких роботов и управляет открытым словарем повседневных объектов. В основе MOSAIC лежит модульность: он использует несколько крупномасштабных предварительно обученных моделей для общих задач, таких как распознавание языка и изображений, а также упрощенные модули, разработанные для управления задачами. Мы подробно оцениваем MOSAIC на 60 полных испытаниях, где два робота сотрудничают с человеческим пользователем для приготовления 6 различных рецептов. Мы также тщательно тестируем отдельные модули с помощью 180 эпизодов визуомоторного захвата, 60 эпизодов прогнозирования движения человека и 46 онлайн-оценок пользователей планировщика задач. Мы показываем, что MOSAIC способен эффективно сотрудничать с людьми, запуская систему end-to-end с реальным человеческим пользователем, завершая 68,3% (41 из 60) совместных кулинарных испытаний 6 различных рецептов с процентом завершения подзадач в 91,6%. Наконец, мы обсуждаем ограничения текущей системы и захватывающие открытые вызовы в этой области. Веб-сайт проекта находится по адресу https://portal-cornell.github.io/MOSAIC/
English
We present MOSAIC, a modular architecture for home robots to perform complex
collaborative tasks, such as cooking with everyday users. MOSAIC tightly
collaborates with humans, interacts with users using natural language,
coordinates multiple robots, and manages an open vocabulary of everyday
objects. At its core, MOSAIC employs modularity: it leverages multiple
large-scale pre-trained models for general tasks like language and image
recognition, while using streamlined modules designed for task-specific
control. We extensively evaluate MOSAIC on 60 end-to-end trials where two
robots collaborate with a human user to cook a combination of 6 recipes. We
also extensively test individual modules with 180 episodes of visuomotor
picking, 60 episodes of human motion forecasting, and 46 online user
evaluations of the task planner. We show that MOSAIC is able to efficiently
collaborate with humans by running the overall system end-to-end with a real
human user, completing 68.3% (41/60) collaborative cooking trials of 6
different recipes with a subtask completion rate of 91.6%. Finally, we discuss
the limitations of the current system and exciting open challenges in this
domain. The project's website is at https://portal-cornell.github.io/MOSAIC/