Генерация выразительного поведения роботов с использованием больших языковых моделей
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
Авторы: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
Аннотация
Люди используют выразительные поведенческие паттерны для эффективного общения и координации своих действий с другими, например, кивают, чтобы подтвердить взгляд другого человека, или говорят "извините", чтобы пройти в оживленном коридоре. Мы хотим, чтобы роботы также демонстрировали выразительное поведение в процессе взаимодействия с людьми. Предыдущие работы предлагают методы, основанные на правилах, которые плохо масштабируются на новые коммуникативные модальности или социальные ситуации, в то время как методы, основанные на данных, требуют специализированных наборов данных для каждой социальной ситуации, в которой используется робот. Мы предлагаем использовать богатый социальный контекст, доступный в больших языковых моделях (LLM), и их способность генерировать движения на основе инструкций или предпочтений пользователя, чтобы создавать адаптируемые и композируемые выразительные движения роботов, которые могут дополнять друг друга. Наш подход использует метод few-shot chain-of-thought prompting для перевода инструкций на естественном языке в параметризованный управляющий код с использованием доступных и изученных навыков робота. С помощью пользовательских исследований и экспериментов в симуляции мы демонстрируем, что наш подход создает поведение, которое пользователи считают компетентным и легко понятным. Дополнительные материалы можно найти по адресу https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.