TidyBot: Gepersonaliseerde Robotassistentie met Grote Taalmodellen
TidyBot: Personalized Robot Assistance with Large Language Models
May 9, 2023
Auteurs: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser
cs.AI
Samenvatting
Om fysieke assistentie effectief te personaliseren, moet een robot gebruikersvoorkeuren leren die in het algemeen kunnen worden toegepast op toekomstige scenario's. In dit werk onderzoeken we de personalisatie van huishoudelijk opruimen met robots die kamers kunnen opruimen door objecten op te pakken en weg te leggen. Een belangrijke uitdaging is het bepalen van de juiste plek voor elk object, aangezien de voorkeuren van mensen sterk kunnen variëren afhankelijk van persoonlijke smaak of culturele achtergrond. Zo kan de ene persoon bijvoorbeeld shirts liever in de la opbergen, terwijl een ander ze liever op de plank legt. Ons doel is om systemen te bouwen die dergelijke voorkeuren kunnen leren uit slechts een handvol voorbeelden via eerdere interacties met een specifiek persoon. We laten zien dat robots taalgebaseerde planning en perceptie kunnen combineren met de few-shot samenvattingsmogelijkheden van grote taalmodellen (LLMs) om gegeneraliseerde gebruikersvoorkeuren af te leiden die breed toepasbaar zijn op toekomstige interacties. Deze aanpak maakt snelle aanpassing mogelijk en behaalt een nauwkeurigheid van 91,2% op onbekende objecten in onze benchmarkdataset. We demonstreren onze aanpak ook op een echte mobiele manipulator genaamd TidyBot, die met succes 85,0% van de objecten in real-world testscenario's opbergt.
English
For a robot to personalize physical assistance effectively, it must learn
user preferences that can be generally reapplied to future scenarios. In this
work, we investigate personalization of household cleanup with robots that can
tidy up rooms by picking up objects and putting them away. A key challenge is
determining the proper place to put each object, as people's preferences can
vary greatly depending on personal taste or cultural background. For instance,
one person may prefer storing shirts in the drawer, while another may prefer
them on the shelf. We aim to build systems that can learn such preferences from
just a handful of examples via prior interactions with a particular person. We
show that robots can combine language-based planning and perception with the
few-shot summarization capabilities of large language models (LLMs) to infer
generalized user preferences that are broadly applicable to future
interactions. This approach enables fast adaptation and achieves 91.2% accuracy
on unseen objects in our benchmark dataset. We also demonstrate our approach on
a real-world mobile manipulator called TidyBot, which successfully puts away
85.0% of objects in real-world test scenarios.