대형 언어 모델을 활용한 생성적 표현 로봇 행동
Generative Expressive Robot Behaviors using Large Language Models
January 26, 2024
저자: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI
초록
사람들은 다른 사람들과 효과적으로 의사소통하고 행동을 조율하기 위해 표현적 행동을 사용합니다. 예를 들어, 자신을 바라보는 사람을 인정하기 위해 고개를 끄덕이거나 혼잡한 복도에서 사람들 사이를 지나가기 위해 "실례합니다"라고 말하는 것과 같은 행동입니다. 우리는 인간-로봇 상호작용에서도 로봇이 이러한 표현적 행동을 보여주기를 원합니다. 기존 연구에서는 새로운 의사소통 방식이나 사회적 상황에 확장하기 어려운 규칙 기반 방법을 제안했으며, 데이터 기반 방법은 로봇이 사용되는 각 사회적 상황에 대해 특화된 데이터셋을 필요로 합니다. 우리는 대규모 언어 모델(LLM)에서 제공되는 풍부한 사회적 맥락과 지시나 사용자 선호에 기반하여 동작을 생성할 수 있는 능력을 활용하여, 적응 가능하고 조합 가능한 표현적 로봇 동작을 생성하는 방법을 제안합니다. 우리의 접근 방식은 퓨샷 사고 연쇄(few-shot chain-of-thought) 프롬프팅을 사용하여 인간 언어 지시를 로봇의 사용 가능하고 학습된 기술을 활용한 파라미터화된 제어 코드로 변환합니다. 사용자 연구와 시뮬레이션 실험을 통해, 우리의 접근 방식이 사용자들이 유능하고 이해하기 쉬운 행동을 생성한다는 것을 입증했습니다. 추가 자료는 https://generative-expressive-motion.github.io/에서 확인할 수 있습니다.
English
People employ expressive behaviors to effectively communicate and coordinate
their actions with others, such as nodding to acknowledge a person glancing at
them or saying "excuse me" to pass people in a busy corridor. We would like
robots to also demonstrate expressive behaviors in human-robot interaction.
Prior work proposes rule-based methods that struggle to scale to new
communication modalities or social situations, while data-driven methods
require specialized datasets for each social situation the robot is used in. We
propose to leverage the rich social context available from large language
models (LLMs) and their ability to generate motion based on instructions or
user preferences, to generate expressive robot motion that is adaptable and
composable, building upon each other. Our approach utilizes few-shot
chain-of-thought prompting to translate human language instructions into
parametrized control code using the robot's available and learned skills.
Through user studies and simulation experiments, we demonstrate that our
approach produces behaviors that users found to be competent and easy to
understand. Supplementary material can be found at
https://generative-expressive-motion.github.io/.