OmniJARVIS: 통합된 비전-언어-액션 토큰화가 가능하게 하는 오픈 월드 명령 수행 에이전트
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents
June 27, 2024
저자: Zihao Wang, Shaofei Cai, Zhancun Mu, Haowei Lin, Ceyao Zhang, Xuejie Liu, Qing Li, Anji Liu, Xiaojian Ma, Yitao Liang
cs.AI
초록
우리는 오픈 월드 Minecraft에서 오픈 월드 명령 수행 에이전트를 위한 새로운 Vision-Language-Action (VLA) 모델인 OmniJARVIS를 제안한다. 기존 연구들이 텍스트 목표를 별도의 컨트롤러에 전달하거나 직접 제어 명령을 생성하는 방식과 달리, OmniJARVIS는 다중 모달 상호작용 데이터의 통합 토큰화를 통해 강력한 추론 능력과 효율적인 의사결정 능력을 모두 보장하는 새로운 접근법을 모색한다. 먼저, 우리는 행동 궤적 tau = {o_0, a_0, dots}에 대한 이산화된 토큰을 생성하는 행동 인코더와 이러한 토큰에 조건부된 모방 학습(IL) 정책 디코더를 학습하기 위한 자기 지도 방식을 소개한다. 이러한 추가 행동 토큰은 사전 학습된 다중 모달 언어 모델(MLMs)의 어휘에 통합된다. 이 인코더를 사용하여, 우리는 작업 지시, 기억, 사고, 관찰, 텍스트 응답, 행동 궤적 등을 포함한 장기 다중 모달 상호작용을 통합 토큰 시퀀스로 패키징하고 이를 자기회귀 트랜스포머로 모델링한다. 의미론적으로 의미 있는 행동 토큰 덕분에, 결과적인 VLA 모델인 OmniJARVIS는 (사고의 연쇄를 생성함으로써) 추론하고, 계획을 세우며, 질문에 답하고, (IL 정책 디코더를 위한 행동 토큰을 생성함으로써) 행동할 수 있다. OmniJARVIS는 오픈 월드 Minecraft에서 원자적, 프로그래밍적, 그리고 개방형 작업에 대한 포괄적인 컬렉션에서 우수한 성능을 보여준다. 우리의 분석은 상호작용 데이터 형성, 통합 토큰화, 그리고 그 확장 가능성에 있어서 중요한 설계 원칙을 더욱 명확히 한다.
English
We present OmniJARVIS, a novel Vision-Language-Action (VLA) model for
open-world instruction-following agents in open-world Minecraft. Compared to
prior works that either emit textual goals to separate controllers or produce
the control command directly, OmniJARVIS seeks a different path to ensure both
strong reasoning and efficient decision-making capabilities via unified
tokenization of multimodal interaction data. First, we introduce a
self-supervised approach to learn a behavior encoder that produces discretized
tokens for behavior trajectories tau = {o_0, a_0, dots} and an
imitation learning (IL) policy decoder conditioned on these tokens. These
additional behavior tokens will be augmented to the vocabulary of pretrained
Multimodal Language Models (MLMs). With this encoder, we then pack long-term
multimodal interactions involving task instructions, memories, thoughts,
observations, textual responses, behavior trajectories, etc. into unified token
sequences and model them with autoregressive transformers. Thanks to the
semantically meaningful behavior tokens, the resulting VLA model, OmniJARVIS,
can reason (by producing chain-of-thoughts), plan, answer questions, and act
(by producing behavior tokens for the IL policy decoder). OmniJARVIS
demonstrates excellent performances on a comprehensive collection of atomic,
programmatic, and open-ended tasks in open-world Minecraft. Our analysis
further unveils the crucial design principles in interaction data formation,
unified tokenization, and its scaling potentials.Summary
AI-Generated Summary