Comportamentos Expressivos Gerativos em Robôs utilizando Modelos de Linguagem de Grande Escala
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
Autores: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
Resumo
As pessoas empregam comportamentos expressivos para se comunicar e coordenar suas ações com outras de forma eficaz, como acenar com a cabeça para reconhecer alguém que as olha ou dizer "com licença" para passar por pessoas em um corredor movimentado. Gostaríamos que os robôs também demonstrassem comportamentos expressivos na interação humano-robô. Trabalhos anteriores propõem métodos baseados em regras que têm dificuldade em escalar para novas modalidades de comunicação ou situações sociais, enquanto métodos baseados em dados exigem conjuntos de dados especializados para cada situação social em que o robô é utilizado. Propomos aproveitar o rico contexto social disponível em modelos de linguagem de grande escala (LLMs) e sua capacidade de gerar movimento com base em instruções ou preferências do usuário, para gerar movimentos expressivos do robô que sejam adaptáveis e composicionais, construindo uns sobre os outros. Nossa abordagem utiliza prompts de cadeia de pensamento com poucos exemplos para traduzir instruções em linguagem humana em código de controle parametrizado, utilizando as habilidades disponíveis e aprendidas do robô. Por meio de estudos com usuários e experimentos de simulação, demonstramos que nossa abordagem produz comportamentos que os usuários consideraram competentes e fáceis de entender. Material suplementar pode ser encontrado em https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.