상호작용 에이전트 기반 모델
An Interactive Agent Foundation Model
February 8, 2024
저자: Zane Durante, Bidipta Sarkar, Ran Gong, Rohan Taori, Yusuke Noda, Paul Tang, Ehsan Adeli, Shrinidhi Kowshika Lakshmikanth, Kevin Schulman, Arnold Milstein, Demetri Terzopoulos, Ade Famoti, Noboru Kuno, Ashley Llorens, Hoi Vo, Katsu Ikeuchi, Li Fei-Fei, Jianfeng Gao, Naoki Wake, Qiuyuan Huang
cs.AI
초록
인공지능 시스템의 개발은 정적이고 특정 작업에 한정된 모델을 생성하는 단계에서, 다양한 응용 분야에서 우수한 성능을 발휘할 수 있는 동적이고 에이전트 기반의 시스템으로 전환되고 있다. 본 연구에서는 광범위한 도메인, 데이터셋, 그리고 작업에 걸쳐 AI 에이전트를 훈련시키기 위한 새로운 다중 작업 에이전트 훈련 패러다임을 사용하는 상호작용형 에이전트 기초 모델(Interactive Agent Foundation Model)을 제안한다. 우리의 훈련 패러다임은 시각적 마스크 자동 인코더, 언어 모델링, 그리고 다음 행동 예측을 포함한 다양한 사전 훈련 전략을 통합하여 다재다능하고 적응력 있는 AI 프레임워크를 가능하게 한다. 우리는 로보틱스, 게임 AI, 그리고 헬스케어라는 세 가지 별개의 도메인에서 우리 프레임워크의 성능을 입증한다. 우리의 모델은 각 영역에서 의미 있고 문맥적으로 적절한 출력을 생성할 수 있는 능력을 보여준다. 우리 접근법의 강점은 로보틱스 시퀀스, 게임플레이 데이터, 대규모 비디오 데이터셋, 그리고 텍스트 정보와 같은 다양한 데이터 소스를 활용하여 효과적인 다중 모달 및 다중 작업 학습을 가능하게 하는 일반성에 있다. 우리의 접근법은 일반적인 행동을 취하는 다중 모달 시스템을 개발하기 위한 유망한 방향을 제시한다.
English
The development of artificial intelligence systems is transitioning from
creating static, task-specific models to dynamic, agent-based systems capable
of performing well in a wide range of applications. We propose an Interactive
Agent Foundation Model that uses a novel multi-task agent training paradigm for
training AI agents across a wide range of domains, datasets, and tasks. Our
training paradigm unifies diverse pre-training strategies, including visual
masked auto-encoders, language modeling, and next-action prediction, enabling a
versatile and adaptable AI framework. We demonstrate the performance of our
framework across three separate domains -- Robotics, Gaming AI, and Healthcare.
Our model demonstrates its ability to generate meaningful and contextually
relevant outputs in each area. The strength of our approach lies in its
generality, leveraging a variety of data sources such as robotics sequences,
gameplay data, large-scale video datasets, and textual information for
effective multimodal and multi-task learning. Our approach provides a promising
avenue for developing generalist, action-taking, multimodal systems.