De Texto a Movimiento: Integrando GPT-4 en el Robot Humanoide "Alter3"
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
Autores: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
Resumen
Informamos sobre el desarrollo de Alter3, un robot humanoide capaz de generar movimiento espontáneo utilizando un Modelo de Lenguaje de Gran Escala (LLM), específicamente GPT-4. Este logro se consiguió al integrar GPT-4 en nuestro androide propietario, Alter3, logrando así conectar efectivamente el LLM con el movimiento corporal de Alter. Normalmente, el control de bajo nivel de los robots depende del hardware y queda fuera del alcance de los corpus de los LLM, lo que presenta desafíos para el control directo de robots basado en LLM. Sin embargo, en el caso de robots humanoides como Alter3, el control directo es factible al mapear las expresiones lingüísticas de las acciones humanas en el cuerpo del robot mediante código de programación. Notablemente, este enfoque permite que Alter3 adopte diversas poses, como una postura de "selfie" o "fingir ser un fantasma", y genere secuencias de acciones a lo largo del tiempo sin necesidad de programación explícita para cada parte del cuerpo. Esto demuestra las capacidades de aprendizaje de cero disparos del robot. Además, la retroalimentación verbal puede ajustar las poses, eliminando la necesidad de ajustes finos. Un video de los movimientos generados por Alter3 está disponible en https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/