Do Texto ao Movimento: Fundamentando o GPT-4 em um Robô Humanoide "Alter3"
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
Autores: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
Resumo
Relatamos o desenvolvimento do Alter3, um robô humanóide capaz de gerar movimentos espontâneos utilizando um Modelo de Linguagem de Grande Escala (LLM), especificamente o GPT-4. Essa conquista foi realizada ao integrar o GPT-4 em nosso androide proprietário, o Alter3, efetivamente conectando o LLM aos movimentos corporais do Alter. Normalmente, o controle de baixo nível de robôs é dependente de hardware e está fora do escopo dos corpora de LLMs, apresentando desafios para o controle direto de robôs baseado em LLMs. No entanto, no caso de robôs humanóides como o Alter3, o controle direto é viável ao mapear as expressões linguísticas de ações humanas no corpo do robô por meio de código de programação. Notavelmente, essa abordagem permite que o Alter3 adote várias poses, como uma postura de "selfie" ou "fingir ser um fantasma", e gere sequências de ações ao longo do tempo sem a necessidade de programação explícita para cada parte do corpo. Isso demonstra as capacidades de aprendizado zero-shot do robô. Além disso, feedback verbal pode ajustar as poses, eliminando a necessidade de ajustes finos. Um vídeo dos movimentos gerados pelo Alter3 está disponível em https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/