テキストから動作へ:ヒューマノイドロボット「Alter3」におけるGPT-4の基盤構築
From Text to Motion: Grounding GPT-4 in a Humanoid Robot "Alter3"
December 11, 2023
著者: Takahide Yoshida, Atsushi Masumori, Takashi Ikegami
cs.AI
要旨
我々は、大規模言語モデル(LLM)、特にGPT-4を用いて自発的な動作を生成可能なヒューマノイドロボット「Alter3」の開発を報告する。この成果は、GPT-4を我々の独自開発アンドロイド「Alter3」に統合し、LLMをAlterの身体動作に効果的に結び付けることで実現された。通常、低レベルのロボット制御はハードウェアに依存し、LLMのコーパスの範囲外であるため、LLMを直接利用したロボット制御には課題があった。しかし、Alter3のようなヒューマノイドロボットの場合、人間の動作を言語表現としてプログラムコードを通じてロボットの身体にマッピングすることで、直接制御が可能である。注目すべきは、このアプローチにより、Alter3が「自撮り」のポーズや「幽霊のふり」といった様々な姿勢を採用し、各身体部位に対する明示的なプログラミングなしに時間経過に伴う一連の動作を生成できることである。これは、ロボットのゼロショット学習能力を示している。さらに、言語によるフィードバックでポーズを調整できるため、微調整の必要がなくなる。Alter3の生成された動作の動画は、https://tnoinkwms.github.io/ALTER-LLM/ で閲覧可能である。
English
We report the development of Alter3, a humanoid robot capable of generating
spontaneous motion using a Large Language Model (LLM), specifically GPT-4. This
achievement was realized by integrating GPT-4 into our proprietary android,
Alter3, thereby effectively grounding the LLM with Alter's bodily movement.
Typically, low-level robot control is hardware-dependent and falls outside the
scope of LLM corpora, presenting challenges for direct LLM-based robot control.
However, in the case of humanoid robots like Alter3, direct control is feasible
by mapping the linguistic expressions of human actions onto the robot's body
through program code. Remarkably, this approach enables Alter3 to adopt various
poses, such as a 'selfie' stance or 'pretending to be a ghost,' and generate
sequences of actions over time without explicit programming for each body part.
This demonstrates the robot's zero-shot learning capabilities. Additionally,
verbal feedback can adjust poses, obviating the need for fine-tuning. A video
of Alter3's generated motions is available at
https://tnoinkwms.github.io/ALTER-LLM/