TidyBot: Assistência Robótica Personalizada com Modelos de Linguagem de Grande Escala
TidyBot: Personalized Robot Assistance with Large Language Models
May 9, 2023
Autores: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser
cs.AI
Resumo
Para que um robô personalize efetivamente a assistência física, ele deve aprender as preferências do usuário que podem ser geralmente reaplicadas a cenários futuros. Neste trabalho, investigamos a personalização da limpeza doméstica com robôs que podem arrumar cômodos pegando objetos e guardando-os. Um desafio crucial é determinar o local adequado para colocar cada objeto, já que as preferências das pessoas podem variar significativamente dependendo do gosto pessoal ou do contexto cultural. Por exemplo, uma pessoa pode preferir guardar camisas na gaveta, enquanto outra pode preferir colocá-las na prateleira. Nosso objetivo é construir sistemas que possam aprender tais preferências a partir de apenas alguns exemplos, por meio de interações anteriores com uma pessoa específica. Mostramos que os robôs podem combinar planejamento e percepção baseados em linguagem com as capacidades de sumarização few-shot de modelos de linguagem de grande escala (LLMs) para inferir preferências generalizadas do usuário que são amplamente aplicáveis a interações futuras. Essa abordagem permite uma adaptação rápida e alcança 91,2% de precisão em objetos não vistos em nosso conjunto de dados de referência. Também demonstramos nossa abordagem em um manipulador móvel do mundo real chamado TidyBot, que consegue guardar 85,0% dos objetos em cenários de teste do mundo real.
English
For a robot to personalize physical assistance effectively, it must learn
user preferences that can be generally reapplied to future scenarios. In this
work, we investigate personalization of household cleanup with robots that can
tidy up rooms by picking up objects and putting them away. A key challenge is
determining the proper place to put each object, as people's preferences can
vary greatly depending on personal taste or cultural background. For instance,
one person may prefer storing shirts in the drawer, while another may prefer
them on the shelf. We aim to build systems that can learn such preferences from
just a handful of examples via prior interactions with a particular person. We
show that robots can combine language-based planning and perception with the
few-shot summarization capabilities of large language models (LLMs) to infer
generalized user preferences that are broadly applicable to future
interactions. This approach enables fast adaptation and achieves 91.2% accuracy
on unseen objects in our benchmark dataset. We also demonstrate our approach on
a real-world mobile manipulator called TidyBot, which successfully puts away
85.0% of objects in real-world test scenarios.