Du texte au mouvement : Ancrage de GPT-4 dans un robot humanoïde "Alter3"
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
Auteurs: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
Résumé
Nous présentons le développement d'Alter3, un robot humanoïde capable de générer des mouvements spontanés en utilisant un modèle de langage de grande envergure (LLM), spécifiquement GPT-4. Cette réalisation a été accomplie en intégrant GPT-4 dans notre androïde propriétaire, Alter3, permettant ainsi d'ancrer efficacement le LLM avec les mouvements corporels d'Alter. Typiquement, le contrôle de bas niveau des robots dépend du matériel et se situe en dehors du champ des corpus LLM, ce qui pose des défis pour un contrôle direct des robots basé sur les LLM. Cependant, dans le cas des robots humanoïdes comme Alter3, un contrôle direct est réalisable en cartographiant les expressions linguistiques des actions humaines sur le corps du robot via du code de programmation. De manière remarquable, cette approche permet à Alter3 d'adopter diverses poses, comme une posture pour un 'selfie' ou 'faire semblant d'être un fantôme', et de générer des séquences d'actions au fil du temps sans programmation explicite pour chaque partie du corps. Cela démontre les capacités d'apprentissage en zero-shot du robot. De plus, un retour verbal peut ajuster les poses, éliminant ainsi le besoin de réglage fin. Une vidéo des mouvements générés par Alter3 est disponible à l'adresse suivante : https://tnoinkwms.github.io/ALTER-LLM/
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/