Comportements expressifs génératifs pour robots utilisant des modèles de langage à grande échelle
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
Auteurs: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
Résumé
Les individus utilisent des comportements expressifs pour communiquer efficacement et coordonner leurs actions avec les autres, comme hocher la tête pour accuser réception d'un regard ou dire "excusez-moi" pour se frayer un chemin dans un couloir bondé. Nous souhaitons que les robots puissent également manifester des comportements expressifs dans les interactions humain-robot. Les travaux antérieurs proposent des méthodes basées sur des règles qui peinent à s'adapter à de nouvelles modalités de communication ou à des situations sociales variées, tandis que les méthodes basées sur les données nécessitent des ensembles de données spécialisés pour chaque situation sociale dans laquelle le robot est utilisé. Nous proposons d'exploiter le riche contexte social offert par les grands modèles de langage (LLMs) et leur capacité à générer des mouvements basés sur des instructions ou des préférences utilisateur, afin de produire des mouvements robotiques expressifs, adaptables et composables, s'appuyant les uns sur les autres. Notre approche utilise un incitatif en chaîne de pensée (few-shot chain-of-thought prompting) pour traduire des instructions en langage naturel en un code de contrôle paramétré, en exploitant les compétences disponibles et apprises du robot. À travers des études utilisateurs et des expériences de simulation, nous démontrons que notre approche génère des comportements que les utilisateurs jugent compétents et faciles à comprendre. Le matériel supplémentaire est disponible à l'adresse suivante : https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.