MOSAIC: Un Sistema Modulare per la Cucina Assistita e Interattiva

Abstract

Presentiamo MOSAIC, un'architettura modulare per robot domestici progettata per eseguire compiti collaborativi complessi, come cucinare insieme a utenti comuni. MOSAIC collabora strettamente con gli esseri umani, interagisce con gli utenti utilizzando il linguaggio naturale, coordina più robot e gestisce un vocabolario aperto di oggetti di uso quotidiano. Al suo interno, MOSAIC sfrutta la modularità: utilizza modelli pre-addestrati su larga scala per compiti generali come il riconoscimento del linguaggio e delle immagini, mentre impiega moduli snelli progettati per il controllo specifico dei compiti. Abbiamo valutato estensivamente MOSAIC su 60 prove end-to-end in cui due robot collaborano con un utente umano per cucinare una combinazione di 6 ricette. Abbiamo anche testato approfonditamente i singoli moduli con 180 episodi di presa visuomotoria, 60 episodi di previsione del movimento umano e 46 valutazioni online degli utenti sul pianificatore dei compiti. Dimostriamo che MOSAIC è in grado di collaborare in modo efficiente con gli esseri umani eseguendo l'intero sistema end-to-end con un utente reale, completando il 68,3% (41/60) delle prove di cucina collaborativa di 6 ricette diverse, con un tasso di completamento dei sottocompiti del 91,6%. Infine, discutiamo i limiti del sistema attuale e le entusiasmanti sfide aperte in questo dominio. Il sito web del progetto è disponibile all'indirizzo https://portal-cornell.github.io/MOSAIC/.

English

We present MOSAIC, a modular architecture for home robots to perform complex collaborative tasks, such as cooking with everyday users. MOSAIC tightly collaborates with humans, interacts with users using natural language, coordinates multiple robots, and manages an open vocabulary of everyday objects. At its core, MOSAIC employs modularity: it leverages multiple large-scale pre-trained models for general tasks like language and image recognition, while using streamlined modules designed for task-specific control. We extensively evaluate MOSAIC on 60 end-to-end trials where two robots collaborate with a human user to cook a combination of 6 recipes. We also extensively test individual modules with 180 episodes of visuomotor picking, 60 episodes of human motion forecasting, and 46 online user evaluations of the task planner. We show that MOSAIC is able to efficiently collaborate with humans by running the overall system end-to-end with a real human user, completing 68.3% (41/60) collaborative cooking trials of 6 different recipes with a subtask completion rate of 91.6%. Finally, we discuss the limitations of the current system and exciting open challenges in this domain. The project's website is at https://portal-cornell.github.io/MOSAIC/

MOSAIC: Un Sistema Modulare per la Cucina Assistita e Interattiva

MOSAIC: A Modular System for Assistive and Interactive Cooking

Abstract

Support