ChatPaper.aiChatPaper

LEGENT: Piattaforma Aperta per Agenti Embodied

LEGENT: Open Platform for Embodied Agents

April 28, 2024
Autori: Zhili Cheng, Zhitong Wang, Jinyi Hu, Shengding Hu, An Liu, Yuge Tu, Pengkai Li, Lei Shi, Zhiyuan Liu, Maosong Sun
cs.AI

Abstract

Nonostante i progressi nei Modelli Linguistici di Grande Scala (LLMs) e nei Modelli Multimodali di Grande Scala (LMMs), la loro integrazione in agenti incarnati basati sul linguaggio e simili agli umani rimane incompleta, ostacolando l'esecuzione di compiti complessi nella vita reale in ambienti fisici. Le integrazioni esistenti spesso presentano una limitata apertura del codice sorgente, rendendo difficile il progresso collettivo in questo campo. Introduciamo LEGENT, una piattaforma aperta e scalabile per lo sviluppo di agenti incarnati utilizzando LLMs e LMMs. LEGENT offre un approccio duale: un ambiente 3D ricco e interattivo con agenti comunicativi e azionabili, abbinato a un'interfaccia user-friendly, e una sofisticata pipeline di generazione dati che utilizza algoritmi avanzati per sfruttare la supervisione da mondi simulati su larga scala. Nei nostri esperimenti, un modello embrionale visione-linguaggio-azione addestrato su dati generati da LEGENT supera GPT-4V in compiti incarnati, dimostrando promettenti capacità di generalizzazione.
English
Despite advancements in Large Language Models (LLMs) and Large Multimodal Models (LMMs), their integration into language-grounded, human-like embodied agents remains incomplete, hindering complex real-life task performance in physical environments. Existing integrations often feature limited open sourcing, challenging collective progress in this field. We introduce LEGENT, an open, scalable platform for developing embodied agents using LLMs and LMMs. LEGENT offers a dual approach: a rich, interactive 3D environment with communicable and actionable agents, paired with a user-friendly interface, and a sophisticated data generation pipeline utilizing advanced algorithms to exploit supervision from simulated worlds at scale. In our experiments, an embryonic vision-language-action model trained on LEGENT-generated data surpasses GPT-4V in embodied tasks, showcasing promising generalization capabilities.
PDF221December 15, 2024