Comportamenti Robotici Espressivi e Generativi utilizzando Modelli Linguistici di Grande Dimensione
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
Autori: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
Abstract
Le persone impiegano comportamenti espressivi per comunicare efficacemente e coordinare le proprie azioni con gli altri, come annuire per riconoscere uno sguardo rivolto a loro o dire "permesso" per passare in un corridoio affollato. Vorremmo che anche i robot dimostrassero comportamenti espressivi nell'interazione uomo-robot. I lavori precedenti propongono metodi basati su regole che faticano a scalare a nuove modalità di comunicazione o situazioni sociali, mentre i metodi basati sui dati richiedono dataset specializzati per ogni situazione sociale in cui il robot viene utilizzato. Proponiamo di sfruttare il ricco contesto sociale disponibile dai grandi modelli linguistici (LLM) e la loro capacità di generare movimenti basati su istruzioni o preferenze dell'utente, per generare movimenti robotici espressivi che siano adattabili e componibili, costruendosi l'uno sull'altro. Il nostro approccio utilizza il prompting a catena di pensiero con pochi esempi per tradurre le istruzioni in linguaggio naturale in codice di controllo parametrizzato, utilizzando le abilità disponibili e apprese dal robot. Attraverso studi sugli utenti e esperimenti di simulazione, dimostriamo che il nostro approccio produce comportamenti che gli utenti hanno ritenuto competenti e facili da comprendere. Il materiale supplementare è disponibile all'indirizzo https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.