Von Text zu Bewegung: Die Verankerung von GPT-4 im humanoiden Roboter "Alter3"
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
Autoren: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
Zusammenfassung
Wir berichten über die Entwicklung von Alter3, einem humanoiden Roboter, der in der Lage ist, spontane Bewegungen mithilfe eines Large Language Models (LLM), speziell GPT-4, zu erzeugen. Diese Leistung wurde durch die Integration von GPT-4 in unseren proprietären Androiden, Alter3, erreicht, wodurch das LLM effektiv mit den Körperbewegungen von Alter verknüpft wurde. Typischerweise ist die Low-Level-Robotersteuerung hardwareabhängig und fällt außerhalb des Anwendungsbereichs von LLM-Korpora, was Herausforderungen für die direkte LLM-basierte Robotersteuerung darstellt. Im Fall von humanoiden Robotern wie Alter3 ist jedoch eine direkte Steuerung möglich, indem die sprachlichen Ausdrücke menschlicher Handlungen durch Programmcode auf den Körper des Roboters abgebildet werden. Bemerkenswerterweise ermöglicht dieser Ansatz Alter3, verschiedene Posen einzunehmen, wie beispielsweise eine „Selfie“-Haltung oder „sich als Geist auszugeben“, und über die Zeit hinweg Aktionssequenzen zu erzeugen, ohne dass eine explizite Programmierung für jeden Körperteil erforderlich ist. Dies demonstriert die Zero-Shot-Lernfähigkeiten des Roboters. Zusätzlich kann verbales Feedback die Posen anpassen, wodurch die Notwendigkeit einer Feinabstimmung entfällt. Ein Video der von Alter3 erzeugten Bewegungen ist unter https://tnoinkwms.github.io/ALTER-LLM/ verfügbar.
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/