ChatPaper.aiChatPaper

LEGENT: 구체화된 에이전트를 위한 오픈 플랫폼

LEGENT: Open Platform for Embodied Agents

April 28, 2024
저자: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun
cs.AI

초록

대규모 언어 모델(LLMs)과 대규모 멀티모달 모델(LMMs)의 발전에도 불구하고, 이러한 모델들을 언어 기반의 인간과 유사한 구현 에이전트에 통합하는 작업은 여전히 미완성 상태이며, 이는 물리적 환경에서의 복잡한 실생활 과제 수행을 방해하고 있습니다. 기존의 통합 방식은 대체로 오픈소스화가 제한적이어서 이 분야의 집단적 진전을 어렵게 하고 있습니다. 우리는 LEGENT를 소개합니다. LEGENT은 LLMs와 LMMs를 사용하여 구현 에이전트를 개발하기 위한 개방적이고 확장 가능한 플랫폼입니다. LEGENT은 두 가지 접근 방식을 제공합니다: 첫째, 상호작용이 가능하고 실행 가능한 에이전트가 포함된 풍부한 3D 환경과 사용자 친화적인 인터페이스를 제공하며, 둘째, 시뮬레이션된 세계로부터의 감독을 대규모로 활용하기 위해 고급 알고리즘을 사용하는 정교한 데이터 생성 파이프라인을 제공합니다. 우리의 실험에서, LEGENT에서 생성된 데이터로 훈련된 초기 단계의 시각-언어-행동 모델은 구현 과제에서 GPT-4V를 능가하며, 유망한 일반화 능력을 보여주었습니다.
English
Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.

Summary

AI-Generated Summary

PDF231December 15, 2024