ChatPaper.aiChatPaper

OmniJARVIS: 統一された視覚-言語-行動トークン化による オープンワールド指示追従エージェントの実現

OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents

June 27, 2024
著者: Zihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang
cs.AI

要旨

我々は、オープンワールドMinecraftにおける指示追従エージェントのための新しいVision-Language-Action(VLA)モデルであるOmniJARVISを提案する。従来の研究では、テキスト形式の目標を別個のコントローラに出力するか、直接制御コマンドを生成するかのいずれかのアプローチが取られていたが、OmniJARVISは、マルチモーダル相互作用データの統一的なトークン化を通じて、強力な推論能力と効率的な意思決定能力の両方を確保するための異なる道を模索する。まず、行動軌跡τ = {o_0, a_0, ...}の離散化トークンを生成する行動エンコーダと、これらのトークンに条件付けられた模倣学習(IL)ポリシーデコーダを学習する自己教師ありアプローチを導入する。これらの追加の行動トークンは、事前学習済みのマルチモーダル言語モデル(MLM)の語彙に拡張される。このエンコーダを用いて、タスク指示、記憶、思考、観察、テキスト応答、行動軌跡などを含む長期的なマルチモーダル相互作用を統一的なトークンシーケンスにパッケージ化し、自己回帰型トランスフォーマーでモデル化する。意味的に意味のある行動トークンにより、結果として得られるVLAモデルであるOmniJARVISは、(連鎖思考を生成することで)推論し、計画し、質問に答え、(ILポリシーデコーダのための行動トークンを生成することで)行動することができる。OmniJARVISは、オープンワールドMinecraftにおける原子的、プログラム的、およびオープンエンドのタスクの包括的なコレクションにおいて優れた性能を示す。我々の分析はさらに、相互作用データの形成、統一的なトークン化、およびそのスケーリング可能性における重要な設計原則を明らかにする。
English
We present OmniJARVIS, a novel Vision-Language-Action (VLA) model for open-world instruction-following agents in open-world Minecraft. Compared to prior works that either emit textual goals to separate controllers or produce the control command directly, OmniJARVIS seeks a different path to ensure both strong reasoning and efficient decision-making capabilities via unified tokenization of multimodal interaction data. First, we introduce a self-supervised approach to learn a behavior encoder that produces discretized tokens for behavior trajectories tau = {o_0, a_0, dots} and an imitation learning (IL) policy decoder conditioned on these tokens. These additional behavior tokens will be augmented to the vocabulary of pretrained Multimodal Language Models (MLMs). With this encoder, we then pack long-term multimodal interactions involving task instructions, memories, thoughts, observations, textual responses, behavior trajectories, etc. into unified token sequences and model them with autoregressive transformers. Thanks to the semantically meaningful behavior tokens, the resulting VLA model, OmniJARVIS, can reason (by producing chain-of-thoughts), plan, answer questions, and act (by producing behavior tokens for the IL policy decoder). OmniJARVIS demonstrates excellent performances on a comprehensive collection of atomic, programmatic, and open-ended tasks in open-world Minecraft. Our analysis further unveils the crucial design principles in interaction data formation, unified tokenization, and its scaling potentials.

Summary

AI-Generated Summary

PDF135November 28, 2024