MOSAIC: 支援的・対話的調理のためのモジュール型システム
MOSAIC: A Modular System for Assistive and Interactive Cooking
February 29, 2024
著者: Huaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury
cs.AI
要旨
本論文では、家庭用ロボットが日常ユーザーと協力して料理などの複雑なタスクを実行するためのモジュール型アーキテクチャ「MOSAIC」を提案する。MOSAICは、人間と密接に協力し、自然言語を用いてユーザーと対話し、複数のロボットを調整し、日常的な物体のオープンな語彙を管理する。その中核にはモジュール性があり、言語や画像認識などの一般的なタスクには大規模な事前学習モデルを活用し、タスク固有の制御には効率的に設計されたモジュールを使用する。MOSAICを、2台のロボットが人間ユーザーと協力して6種類のレシピを組み合わせて料理する60回のエンドツーエンド試験で詳細に評価した。また、視覚運動ピッキングの180エピソード、人間の動作予測の60エピソード、タスクプランナーのオンラインユーザー評価46回を通じて個々のモジュールを広範にテストした。MOSAICは、実際の人間ユーザーとエンドツーエンドでシステムを実行し、6種類のレシピにおける68.3%(41/60)の協調料理試験を完了し、サブタスクの完了率は91.6%であった。最後に、現在のシステムの限界とこの分野における興味深い未解決の課題について議論する。プロジェクトのウェブサイトはhttps://portal-cornell.github.io/MOSAIC/にて公開されている。
English
We present MOSAIC, a modular architecture for home robots to perform complex
collaborative tasks, such as cooking with everyday users. MOSAIC tightly
collaborates with humans, interacts with users using natural language,
coordinates multiple robots, and manages an open vocabulary of everyday
objects. At its core, MOSAIC employs modularity: it leverages multiple
large-scale pre-trained models for general tasks like language and image
recognition, while using streamlined modules designed for task-specific
control. We extensively evaluate MOSAIC on 60 end-to-end trials where two
robots collaborate with a human user to cook a combination of 6 recipes. We
also extensively test individual modules with 180 episodes of visuomotor
picking, 60 episodes of human motion forecasting, and 46 online user
evaluations of the task planner. We show that MOSAIC is able to efficiently
collaborate with humans by running the overall system end-to-end with a real
human user, completing 68.3% (41/60) collaborative cooking trials of 6
different recipes with a subtask completion rate of 91.6%. Finally, we discuss
the limitations of the current system and exciting open challenges in this
domain. The project's website is at https://portal-cornell.github.io/MOSAIC/