Generatieve Expressieve Robotgedragingen met behulp van Grote Taalmodellen
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
Auteurs: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
Samenvatting
Mensen gebruiken expressief gedrag om effectief te communiceren en hun acties met anderen af te stemmen, zoals knikken om iemand te erkennen die naar hen kijkt of "pardon" zeggen om langs mensen te gaan in een drukke gang. We willen dat robots ook expressief gedrag vertonen in mens-robotinteractie. Eerder werk stelt op regels gebaseerde methoden voor die moeite hebben om te schalen naar nieuwe communicatiemodaliteiten of sociale situaties, terwijl data-gedreven methoden gespecialiseerde datasets vereisen voor elke sociale situatie waarin de robot wordt gebruikt. Wij stellen voor om gebruik te maken van de rijke sociale context die beschikbaar is uit grote taalmmodellen (LLMs) en hun vermogen om beweging te genereren op basis van instructies of gebruikersvoorkeuren, om expressieve robotbeweging te genereren die aanpasbaar en samenstelbaar is, waarbij op elkaar wordt voortgebouwd. Onze aanpak maakt gebruik van few-shot chain-of-thought prompting om menselijke taalinstrucities te vertalen in geparametriseerde controlecode met behulp van de beschikbare en aangeleerde vaardigheden van de robot. Door gebruikersstudies en simulatie-experimenten tonen we aan dat onze aanpak gedrag voortbrengt dat gebruikers competent en gemakkelijk te begrijpen vonden. Aanvullend materiaal is te vinden op https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.