TidyBot: Gepersonaliseerde Robotassistentie met Grote Taalmodellen

Samenvatting

Om fysieke assistentie effectief te personaliseren, moet een robot gebruikersvoorkeuren leren die in het algemeen kunnen worden toegepast op toekomstige scenario's. In dit werk onderzoeken we de personalisatie van huishoudelijk opruimen met robots die kamers kunnen opruimen door objecten op te pakken en weg te leggen. Een belangrijke uitdaging is het bepalen van de juiste plek voor elk object, aangezien de voorkeuren van mensen sterk kunnen variëren afhankelijk van persoonlijke smaak of culturele achtergrond. Zo kan de ene persoon bijvoorbeeld shirts liever in de la opbergen, terwijl een ander ze liever op de plank legt. Ons doel is om systemen te bouwen die dergelijke voorkeuren kunnen leren uit slechts een handvol voorbeelden via eerdere interacties met een specifiek persoon. We laten zien dat robots taalgebaseerde planning en perceptie kunnen combineren met de few-shot samenvattingsmogelijkheden van grote taalmodellen (LLMs) om gegeneraliseerde gebruikersvoorkeuren af te leiden die breed toepasbaar zijn op toekomstige interacties. Deze aanpak maakt snelle aanpassing mogelijk en behaalt een nauwkeurigheid van 91,2% op onbekende objecten in onze benchmarkdataset. We demonstreren onze aanpak ook op een echte mobiele manipulator genaamd TidyBot, die met succes 85,0% van de objecten in real-world testscenario's opbergt.

English

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.

TidyBot: Gepersonaliseerde Robotassistentie met Grote Taalmodellen

TidyBot: Personalized Robot Assistance with Large Language Models

Samenvatting

Support