TidyBot: Assistência Robótica Personalizada com Modelos de Linguagem de Grande Escala

Resumo

Para que um robô personalize efetivamente a assistência física, ele deve aprender as preferências do usuário que podem ser geralmente reaplicadas a cenários futuros. Neste trabalho, investigamos a personalização da limpeza doméstica com robôs que podem arrumar cômodos pegando objetos e guardando-os. Um desafio crucial é determinar o local adequado para colocar cada objeto, já que as preferências das pessoas podem variar significativamente dependendo do gosto pessoal ou do contexto cultural. Por exemplo, uma pessoa pode preferir guardar camisas na gaveta, enquanto outra pode preferir colocá-las na prateleira. Nosso objetivo é construir sistemas que possam aprender tais preferências a partir de apenas alguns exemplos, por meio de interações anteriores com uma pessoa específica. Mostramos que os robôs podem combinar planejamento e percepção baseados em linguagem com as capacidades de sumarização few-shot de modelos de linguagem de grande escala (LLMs) para inferir preferências generalizadas do usuário que são amplamente aplicáveis a interações futuras. Essa abordagem permite uma adaptação rápida e alcança 91,2% de precisão em objetos não vistos em nosso conjunto de dados de referência. Também demonstramos nossa abordagem em um manipulador móvel do mundo real chamado TidyBot, que consegue guardar 85,0% dos objetos em cenários de teste do mundo real.

English

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.

TidyBot: Assistência Robótica Personalizada com Modelos de Linguagem de Grande Escala

TidyBot: Personalized Robot Assistance with Large Language Models

Resumo

Support