ChatPaper.aiChatPaper

LEGENT: Open Platform voor Geïncarneerde Agents

LEGENT: Open Platform for Embodied Agents

April 28, 2024
Auteurs: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun
cs.AI

Samenvatting

Ondanks vooruitgang in Grote Taalmodellen (LLMs) en Grote Multimodale Modellen (LMMs), blijft hun integratie in taalgebaseerde, mensachtige belichaamde agents onvolledig, wat de uitvoering van complexe taken in fysieke omgevingen belemmert. Bestaande integraties kenmerken zich vaak door beperkte open sourcing, wat collectieve vooruitgang in dit veld bemoeilijkt. Wij introduceren LEGENT, een open, schaalbare platform voor de ontwikkeling van belichaamde agents met behulp van LLMs en LMMs. LEGENT biedt een dubbele aanpak: een rijk, interactief 3D-omgeving met communicatieve en handelbare agents, gekoppeld aan een gebruiksvriendelijke interface, en een geavanceerde datageneratiepijplijn die gebruikmaakt van geavanceerde algoritmen om toezicht uit gesimuleerde werelden op grote schaal te benutten. In onze experimenten presteert een embryonaal visie-taal-actiemodel, getraind op LEGENT-gegenereerde data, beter dan GPT-4V in belichaamde taken, wat veelbelovende generalisatiecapaciteiten aantoont.
English
Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
PDF221December 15, 2024