Do Texto ao Movimento: Fundamentando o GPT-4 em um Robô Humanoide "Alter3"

Resumo

Relatamos o desenvolvimento do Alter3, um robô humanóide capaz de gerar movimentos espontâneos utilizando um Modelo de Linguagem de Grande Escala (LLM), especificamente o GPT-4. Essa conquista foi realizada ao integrar o GPT-4 em nosso androide proprietário, o Alter3, efetivamente conectando o LLM aos movimentos corporais do Alter. Normalmente, o controle de baixo nível de robôs é dependente de hardware e está fora do escopo dos corpora de LLMs, apresentando desafios para o controle direto de robôs baseado em LLMs. No entanto, no caso de robôs humanóides como o Alter3, o controle direto é viável ao mapear as expressões linguísticas de ações humanas no corpo do robô por meio de código de programação. Notavelmente, essa abordagem permite que o Alter3 adote várias poses, como uma postura de "selfie" ou "fingir ser um fantasma", e gere sequências de ações ao longo do tempo sem a necessidade de programação explícita para cada parte do corpo. Isso demonstra as capacidades de aprendizado zero-shot do robô. Além disso, feedback verbal pode ajustar as poses, eliminando a necessidade de ajustes finos. Um vídeo dos movimentos gerados pelo Alter3 está disponível em https://tnoinkwms.github.io/ALTER-LLM/.

English

We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/

Do Texto ao Movimento: Fundamentando o GPT-4 em um Robô Humanoide "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

Resumo

Support