TidyBot: Assistenza Robotica Personalizzata con Modelli Linguistici di Grande Dimensione
TidyBot: Personalized Robot Assistance with Large Language Models
May 9, 2023
Autori: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser
cs.AI
Abstract
Affinché un robot possa personalizzare efficacemente l'assistenza fisica, deve apprendere le preferenze dell'utente che possano essere generalmente riapplicate a scenari futuri. In questo lavoro, esploriamo la personalizzazione delle pulizie domestiche con robot in grado di riordinare le stanze raccogliendo oggetti e riponendoli al loro posto. Una sfida chiave è determinare la posizione corretta per ciascun oggetto, poiché le preferenze delle persone possono variare notevolmente in base al gusto personale o al background culturale. Ad esempio, una persona potrebbe preferire riporre le camicie nel cassetto, mentre un'altra potrebbe preferirle sullo scaffale. Il nostro obiettivo è costruire sistemi in grado di apprendere tali preferenze da pochi esempi, attraverso interazioni precedenti con una persona specifica. Dimostriamo che i robot possono combinare la pianificazione e la percezione basate sul linguaggio con le capacità di riepilogo few-shot dei modelli linguistici di grandi dimensioni (LLM) per inferire preferenze utente generalizzate, ampiamente applicabili a interazioni future. Questo approccio consente un adattamento rapido e raggiunge un'accuratezza del 91,2% su oggetti non visti nel nostro dataset di benchmark. Dimostriamo inoltre il nostro approccio su un manipolatore mobile reale chiamato TidyBot, che riesce a riporre correttamente l'85,0% degli oggetti in scenari di test del mondo reale.
English
For a robot to personalize physical assistance effectively, it must learn
user preferences that can be generally reapplied to future scenarios. In this
work, we investigate personalization of household cleanup with robots that can
tidy up rooms by picking up objects and putting them away. A key challenge is
determining the proper place to put each object, as people's preferences can
vary greatly depending on personal taste or cultural background. For instance,
one person may prefer storing shirts in the drawer, while another may prefer
them on the shelf. We aim to build systems that can learn such preferences from
just a handful of examples via prior interactions with a particular person. We
show that robots can combine language-based planning and perception with the
few-shot summarization capabilities of large language models (LLMs) to infer
generalized user preferences that are broadly applicable to future
interactions. This approach enables fast adaptation and achieves 91.2% accuracy
on unseen objects in our benchmark dataset. We also demonstrate our approach on
a real-world mobile manipulator called TidyBot, which successfully puts away
85.0% of objects in real-world test scenarios.