TidyBot: Персонализированная роботизированная помощь с использованием больших языковых моделей
TidyBot: Personalized Robot Assistance with Large Language Models
May 9, 2023
Авторы: Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser
cs.AI
Аннотация
Для эффективной персонализации физической помощи робот должен изучить предпочтения пользователя, которые могут быть в целом применены к будущим сценариям. В данной работе мы исследуем персонализацию уборки в доме с помощью роботов, которые могут приводить комнаты в порядок, подбирая предметы и убирая их на место. Ключевая задача заключается в определении правильного места для каждого объекта, поскольку предпочтения людей могут значительно варьироваться в зависимости от личных вкусов или культурных особенностей. Например, один человек может предпочитать хранить рубашки в ящике, а другой — на полке. Мы стремимся создать системы, способные изучить такие предпочтения всего по нескольким примерам на основе предыдущих взаимодействий с конкретным человеком. Мы показываем, что роботы могут комбинировать планирование и восприятие на основе языка с возможностями крупных языковых моделей (LLMs) для обобщения предпочтений пользователя, которые широко применимы к будущим взаимодействиям. Этот подход обеспечивает быстрое адаптирование и достигает точности 91,2% на неизвестных объектах в нашем тестовом наборе данных. Мы также демонстрируем наш подход на реальном мобильном манипуляторе под названием TidyBot, который успешно убирает 85,0% объектов в реальных тестовых сценариях.
English
For a robot to personalize physical assistance effectively, it must learn
user preferences that can be generally reapplied to future scenarios. In this
work, we investigate personalization of household cleanup with robots that can
tidy up rooms by picking up objects and putting them away. A key challenge is
determining the proper place to put each object, as people's preferences can
vary greatly depending on personal taste or cultural background. For instance,
one person may prefer storing shirts in the drawer, while another may prefer
them on the shelf. We aim to build systems that can learn such preferences from
just a handful of examples via prior interactions with a particular person. We
show that robots can combine language-based planning and perception with the
few-shot summarization capabilities of large language models (LLMs) to infer
generalized user preferences that are broadly applicable to future
interactions. This approach enables fast adaptation and achieves 91.2% accuracy
on unseen objects in our benchmark dataset. We also demonstrate our approach on
a real-world mobile manipulator called TidyBot, which successfully puts away
85.0% of objects in real-world test scenarios.