LEGENT: Open Platform voor Geïncarneerde Agents
LEGENT: Open Platform for Embodied Agents
April 28, 2024
Auteurs: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun
cs.AI
Samenvatting
Ondanks vooruitgang in Grote Taalmodellen (LLMs) en Grote Multimodale Modellen (LMMs), blijft hun integratie in taalgebaseerde, mensachtige belichaamde agents onvolledig, wat de uitvoering van complexe taken in fysieke omgevingen belemmert. Bestaande integraties kenmerken zich vaak door beperkte open sourcing, wat collectieve vooruitgang in dit veld bemoeilijkt. Wij introduceren LEGENT, een open, schaalbare platform voor de ontwikkeling van belichaamde agents met behulp van LLMs en LMMs. LEGENT biedt een dubbele aanpak: een rijk, interactief 3D-omgeving met communicatieve en handelbare agents, gekoppeld aan een gebruiksvriendelijke interface, en een geavanceerde datageneratiepijplijn die gebruikmaakt van geavanceerde algoritmen om toezicht uit gesimuleerde werelden op grote schaal te benutten. In onze experimenten presteert een embryonaal visie-taal-actiemodel, getraind op LEGENT-gegenereerde data, beter dan GPT-4V in belichaamde taken, wat veelbelovende generalisatiecapaciteiten aantoont.
English
Despite advancements in Large Language Models (LLMs) and Large Multimodal
Models (LMMs), their integration into language-grounded, human-like embodied
agents remains incomplete, hindering complex real-life task performance in
physical environments. Existing integrations often feature limited open
sourcing, challenging collective progress in this field. We introduce LEGENT,
an open, scalable platform for developing embodied agents using LLMs and LMMs.
LEGENT offers a dual approach: a rich, interactive 3D environment with
communicable and actionable agents, paired with a user-friendly interface, and
a sophisticated data generation pipeline utilizing advanced algorithms to
exploit supervision from simulated worlds at scale. In our experiments, an
embryonic vision-language-action model trained on LEGENT-generated data
surpasses GPT-4V in embodied tasks, showcasing promising generalization
capabilities.