ChatPaper.aiChatPaper

De Texto a Movimiento: Integrando GPT-4 en el Robot Humanoide "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

December 11, 2023
Autores: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI

Resumen

Informamos sobre el desarrollo de Alter3, un robot humanoide capaz de generar movimiento espontáneo utilizando un Modelo de Lenguaje de Gran Escala (LLM), específicamente GPT-4. Este logro se consiguió al integrar GPT-4 en nuestro androide propietario, Alter3, logrando así conectar efectivamente el LLM con el movimiento corporal de Alter. Normalmente, el control de bajo nivel de los robots depende del hardware y queda fuera del alcance de los corpus de los LLM, lo que presenta desafíos para el control directo de robots basado en LLM. Sin embargo, en el caso de robots humanoides como Alter3, el control directo es factible al mapear las expresiones lingüísticas de las acciones humanas en el cuerpo del robot mediante código de programación. Notablemente, este enfoque permite que Alter3 adopte diversas poses, como una postura de "selfie" o "fingir ser un fantasma", y genere secuencias de acciones a lo largo del tiempo sin necesidad de programación explícita para cada parte del cuerpo. Esto demuestra las capacidades de aprendizaje de cero disparos del robot. Además, la retroalimentación verbal puede ajustar las poses, eliminando la necesidad de ajustes finos. Un video de los movimientos generados por Alter3 está disponible en https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/
PDF130December 15, 2024