LEGENT: Piattaforma Aperta per Agenti Embodied
LEGENT: Open Platform for Embodied Agents
April 28, 2024
Autori: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
Nonostante i progressi nei Modelli Linguistici di Grande Scala (LLMs) e nei Modelli Multimodali di Grande Scala (LMMs), la loro integrazione in agenti incarnati basati sul linguaggio e simili agli umani rimane incompleta, ostacolando l'esecuzione di compiti complessi nella vita reale in ambienti fisici. Le integrazioni esistenti spesso presentano una limitata apertura del codice sorgente, rendendo difficile il progresso collettivo in questo campo. Introduciamo LEGENT, una piattaforma aperta e scalabile per lo sviluppo di agenti incarnati utilizzando LLMs e LMMs. LEGENT offre un approccio duale: un ambiente 3D ricco e interattivo con agenti comunicativi e azionabili, abbinato a un'interfaccia user-friendly, e una sofisticata pipeline di generazione dati che utilizza algoritmi avanzati per sfruttare la supervisione da mondi simulati su larga scala. Nei nostri esperimenti, un modello embrionale visione-linguaggio-azione addestrato su dati generati da LEGENT supera GPT-4V in compiti incarnati, dimostrando promettenti capacità di generalizzazione.
English
Despite advancements in Large Language Models (LLMs) and Large Multimodal
Models (LMMs), their integration into language-grounded, human-like embodied
agents remains incomplete, hindering complex real-life task performance in
physical environments. Existing integrations often feature limited open
sourcing, challenging collective progress in this field. We introduce LEGENT,
an open, scalable platform for developing embodied agents using LLMs and LMMs.
LEGENT offers a dual approach: a rich, interactive 3D environment with
communicable and actionable agents, paired with a user-friendly interface, and
a sophisticated data generation pipeline utilizing advanced algorithms to
exploit supervision from simulated worlds at scale. In our experiments, an
embryonic vision-language-action model trained on LEGENT-generated data
surpasses GPT-4V in embodied tasks, showcasing promising generalization
capabilities.