ChatPaper.aiChatPaper

Van tekst naar beweging: GPT-4 integreren in de humanoïde robot "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

December 11, 2023
Auteurs: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI

Samenvatting

Wij presenteren de ontwikkeling van Alter3, een humanoïde robot die spontane bewegingen kan genereren met behulp van een Large Language Model (LLM), specifiek GPT-4. Deze prestatie is gerealiseerd door GPT-4 te integreren in onze eigen android, Alter3, waardoor het LLM effectief is verbonden met de lichaamsbewegingen van Alter. Normaal gesproken is low-level robotbesturing hardware-afhankelijk en valt buiten het bereik van LLM-corpora, wat uitdagingen oplevert voor directe LLM-gestuurde robotbesturing. Echter, in het geval van humanoïde robots zoals Alter3, is directe besturing haalbaar door de linguïstische uitdrukkingen van menselijke acties te vertalen naar de bewegingen van de robot via programmacode. Opmerkelijk genoeg stelt deze aanpak Alter3 in staat om verschillende poses aan te nemen, zoals een 'selfie'-houding of 'doen alsof het een spook is', en actievolgordes te genereren over tijd zonder expliciete programmering voor elk lichaamsdeel. Dit toont de zero-shot leer capaciteiten van de robot aan. Daarnaast kunnen verbale feedback poses aanpassen, waardoor fine-tuning overbodig wordt. Een video van de gegenereerde bewegingen van Alter3 is beschikbaar op https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/
PDF130February 8, 2026