От текста к движению: интеграция GPT-4 в гуманоидного робота "Alter3"

Аннотация

Мы представляем разработку Alter3, гуманоидного робота, способного генерировать спонтанные движения с использованием крупной языковой модели (LLM), в частности GPT-4. Этот результат был достигнут путем интеграции GPT-4 в наш собственный андроид Alter3, что эффективно связало LLM с движениями тела Alter. Обычно низкоуровневое управление роботом зависит от аппаратного обеспечения и выходит за рамки корпусов LLM, что создает сложности для прямого управления роботом на основе LLM. Однако в случае гуманоидных роботов, таких как Alter3, прямое управление возможно путем отображения лингвистических выражений человеческих действий на тело робота через программный код. Примечательно, что этот подход позволяет Alter3 принимать различные позы, такие как "селфи" или "притворяться привидением", и генерировать последовательности действий с течением времени без явного программирования для каждой части тела. Это демонстрирует способности робота к обучению с нулевым сэмплингом. Кроме того, вербальная обратная связь может корректировать позы, устраняя необходимость в тонкой настройке. Видео сгенерированных движений Alter3 доступно по адресу https://tnoinkwms.github.io/ALTER-LLM/.

English

We report the development of Alter3, a humanoid robot capable of generating spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This achievement was realized by integrating GPT-4 into our proprietary android, Alter3, thereby effectively grounding the LLM with Alter's bodily movement. Typically, low-level robot control is hardware-dependent and falls outside the scope of LLM corpora, presenting challenges for direct LLM-based robot control. However, in the case of humanoid robots like Alter3, direct control is feasible by mapping the linguistic expressions of human actions onto the robot's body through program code. Remarkably, this approach enables Alter3 to adopt various poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate sequences of actions over time without explicit programming for each body part. This demonstrates the robot's zero-shot learning capabilities. Additionally, verbal feedback can adjust poses, obviating the need for fine-tuning. A video of Alter3's generated motions is available at https://tnoinkwms.github.io/ALTER-LLM/

От текста к движению: интеграция GPT-4 в гуманоидного робота "Alter3"

From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"

Аннотация

Support