От текста к движению: интеграция GPT-4 в гуманоидного робота "Alter3"
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
Авторы: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
Аннотация
Мы представляем разработку Alter3, гуманоидного робота, способного генерировать спонтанные движения с использованием крупной языковой модели (LLM), в частности GPT-4. Этот результат был достигнут путем интеграции GPT-4 в наш собственный андроид Alter3, что эффективно связало LLM с движениями тела Alter. Обычно низкоуровневое управление роботом зависит от аппаратного обеспечения и выходит за рамки корпусов LLM, что создает сложности для прямого управления роботом на основе LLM. Однако в случае гуманоидных роботов, таких как Alter3, прямое управление возможно путем отображения лингвистических выражений человеческих действий на тело робота через программный код. Примечательно, что этот подход позволяет Alter3 принимать различные позы, такие как "селфи" или "притворяться привидением", и генерировать последовательности действий с течением времени без явного программирования для каждой части тела. Это демонстрирует способности робота к обучению с нулевым сэмплингом. Кроме того, вербальная обратная связь может корректировать позы, устраняя необходимость в тонкой настройке. Видео сгенерированных движений Alter3 доступно по адресу https://tnoinkwms.github.io/ALTER-LLM/.
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/