ChatPaper.aiChatPaper

Generative ausdrucksstarke Roboterverhaltensweisen mithilfe von Large Language Models

Generative Expressive Robot Behaviors using Large Language Models

January 26, 2024
Autoren: Karthik Mahadevan, Jonathan Chien, Noah Brown, Zhuo Xu, Carolina Parada, Fei Xia, Andy Zeng, Leila Takayama, Dorsa Sadigh
cs.AI

Zusammenfassung

Menschen setzen ausdrucksstarke Verhaltensweisen ein, um effektiv zu kommunizieren und ihre Handlungen mit anderen zu koordinieren, wie beispielsweise Nicken, um eine Person anzuerkennen, die sie anschaut, oder „Entschuldigung“ zu sagen, um in einem belebten Korridor an anderen vorbeizugehen. Wir möchten, dass Roboter ebenfalls ausdrucksstarke Verhaltensweisen in der Mensch-Roboter-Interaktion zeigen. Bisherige Ansätze schlagen regelbasierte Methoden vor, die Schwierigkeiten haben, auf neue Kommunikationsmodalitäten oder soziale Situationen zu skalieren, während datengetriebene Methoden spezialisierte Datensätze für jede soziale Situation erfordern, in der der Roboter eingesetzt wird. Wir schlagen vor, den reichen sozialen Kontext großer Sprachmodelle (LLMs) und deren Fähigkeit, Bewegungen basierend auf Anweisungen oder Benutzerpräferenzen zu generieren, zu nutzen, um ausdrucksvolle Roboterbewegungen zu erzeugen, die anpassungsfähig und komponierbar sind und aufeinander aufbauen. Unser Ansatz verwendet Few-Shot-Chain-of-Thought-Prompting, um menschliche Sprachanweisungen in parametrisierten Steuerungscode zu übersetzen, der die verfügbaren und erlernten Fähigkeiten des Roboters nutzt. Durch Benutzerstudien und Simulationsexperimente zeigen wir, dass unser Ansatz Verhaltensweisen erzeugt, die von Benutzern als kompetent und leicht verständlich empfunden werden. Ergänzendes Material finden Sie unter https://generative-expressive-motion.github.io/.
English
People employ expressive behaviors to effectively communicate and coordinate their actions with others, such as nodding to acknowledge a person glancing at them or saying "excuse me" to pass people in a busy corridor. We would like robots to also demonstrate expressive behaviors in human-robot interaction. Prior work proposes rule-based methods that struggle to scale to new communication modalities or social situations, while data-driven methods require specialized datasets for each social situation the robot is used in. We propose to leverage the rich social context available from large language models (LLMs) and their ability to generate motion based on instructions or user preferences, to generate expressive robot motion that is adaptable and composable, building upon each other. Our approach utilizes few-shot chain-of-thought prompting to translate human language instructions into parametrized control code using the robot's available and learned skills. Through user studies and simulation experiments, we demonstrate that our approach produces behaviors that users found to be competent and easy to understand. Supplementary material can be found at https://generative-expressive-motion.github.io/.
PDF71December 15, 2024