ChatPaper.aiChatPaper

Da Testo a Movimento: Integrare GPT-4 nel Robot Umanoide "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

December 11, 2023
Autori: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI

Abstract

Presentiamo lo sviluppo di Alter3, un robot umanoide in grado di generare movimenti spontanei utilizzando un modello di linguaggio di grandi dimensioni (LLM), nello specifico GPT-4. Questo risultato è stato raggiunto integrando GPT-4 nel nostro androide proprietario, Alter3, collegando così efficacemente l'LLM ai movimenti corporei di Alter. Tipicamente, il controllo di basso livello dei robot dipende dall'hardware e non rientra nel corpus degli LLM, rappresentando una sfida per il controllo diretto dei robot basato su LLM. Tuttavia, nel caso di robot umanoidi come Alter3, il controllo diretto è fattibile mappando le espressioni linguistiche delle azioni umane sul corpo del robot attraverso codice di programmazione. In modo notevole, questo approccio consente ad Alter3 di assumere varie pose, come una posa da "selfie" o "fingere di essere un fantasma", e di generare sequenze di azioni nel tempo senza una programmazione esplicita per ogni parte del corpo. Ciò dimostra le capacità di apprendimento zero-shot del robot. Inoltre, il feedback verbale può regolare le pose, eliminando la necessità di un affinamento. Un video dei movimenti generati da Alter3 è disponibile all'indirizzo https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/
PDF130February 8, 2026