TidyBot: Asistencia robótica personalizada con modelos de lenguaje a gran escala
TidyBot: Personalized Robot Assistance with Large Language Models
May 9, 2023
Autores: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser
cs.AI
Resumen
Para que un robot pueda personalizar la asistencia física de manera efectiva, debe aprender las preferencias del usuario que puedan aplicarse de forma generalizada a escenarios futuros. En este trabajo, investigamos la personalización de la limpieza del hogar con robots que pueden ordenar habitaciones recogiendo objetos y guardándolos. Un desafío clave es determinar el lugar adecuado para colocar cada objeto, ya que las preferencias de las personas pueden variar enormemente según el gusto personal o el trasfondo cultural. Por ejemplo, una persona puede preferir guardar las camisas en el cajón, mientras que otra puede preferirlas en el estante. Nuestro objetivo es construir sistemas que puedan aprender dichas preferencias a partir de solo un puñado de ejemplos mediante interacciones previas con una persona en particular. Demostramos que los robots pueden combinar la planificación y percepción basadas en lenguaje con las capacidades de resumen de pocos ejemplos (few-shot) de los modelos de lenguaje grandes (LLMs) para inferir preferencias generalizadas del usuario que sean ampliamente aplicables a interacciones futuras. Este enfoque permite una adaptación rápida y alcanza un 91.2% de precisión en objetos no vistos en nuestro conjunto de datos de referencia. También demostramos nuestro enfoque en un manipulador móvil del mundo real llamado TidyBot, que logra guardar el 85.0% de los objetos en escenarios de prueba del mundo real.
English
For a robot to personalize physical assistance effectively, it must learn
user preferences that can be generally reapplied to future scenarios. In this
work, we investigate personalization of household cleanup with robots that can
tidy up rooms by picking up objects and putting them away. A key challenge is
determining the proper place to put each object, as people's preferences can
vary greatly depending on personal taste or cultural background. For instance,
one person may prefer storing shirts in the drawer, while another may prefer
them on the shelf. We aim to build systems that can learn such preferences from
just a handful of examples via prior interactions with a particular person. We
show that robots can combine language-based planning and perception with the
few-shot summarization capabilities of large language models (LLMs) to infer
generalized user preferences that are broadly applicable to future
interactions. This approach enables fast adaptation and achieves 91.2% accuracy
on unseen objects in our benchmark dataset. We also demonstrate our approach on
a real-world mobile manipulator called TidyBot, which successfully puts away
85.0% of objects in real-world test scenarios.