ChatPaper.aiChatPaper

Von Text zu Bewegung: Die Verankerung von GPT-4 im humanoiden Roboter "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

December 11, 2023
Autoren: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI

Zusammenfassung

Wir berichten über die Entwicklung von Alter3, einem humanoiden Roboter, der in der Lage ist, spontane Bewegungen mithilfe eines Large Language Models (LLM), speziell GPT-4, zu erzeugen. Diese Leistung wurde durch die Integration von GPT-4 in unseren proprietären Androiden, Alter3, erreicht, wodurch das LLM effektiv mit den Körperbewegungen von Alter verknüpft wurde. Typischerweise ist die Low-Level-Robotersteuerung hardwareabhängig und fällt außerhalb des Anwendungsbereichs von LLM-Korpora, was Herausforderungen für die direkte LLM-basierte Robotersteuerung darstellt. Im Fall von humanoiden Robotern wie Alter3 ist jedoch eine direkte Steuerung möglich, indem die sprachlichen Ausdrücke menschlicher Handlungen durch Programmcode auf den Körper des Roboters abgebildet werden. Bemerkenswerterweise ermöglicht dieser Ansatz Alter3, verschiedene Posen einzunehmen, wie beispielsweise eine „Selfie“-Haltung oder „sich als Geist auszugeben“, und über die Zeit hinweg Aktionssequenzen zu erzeugen, ohne dass eine explizite Programmierung für jeden Körperteil erforderlich ist. Dies demonstriert die Zero-Shot-Lernfähigkeiten des Roboters. Zusätzlich kann verbales Feedback die Posen anpassen, wodurch die Notwendigkeit einer Feinabstimmung entfällt. Ein Video der von Alter3 erzeugten Bewegungen ist unter https://tnoinkwms.github.io/ALTER-LLM/ verfügbar.
English
We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/
PDF130December 15, 2024