Skalierung von instruierbaren Agenten über viele simulierte Welten hinwegScaling Instructable Agents Across Many Simulated Worlds
Der Aufbau von verkörperten KI-Systemen, die beliebige Sprachanweisungen in jeder 3D-Umgebung befolgen können, ist eine zentrale Herausforderung für die Schaffung einer allgemeinen KI. Die Erreichung dieses Ziels erfordert das Erlernen, Sprache in Wahrnehmung und verkörperte Handlungen zu verankern, um komplexe Aufgaben zu erledigen. Das Projekt "Skalierbarer, anweisbarer, Multiworld-Agent (SIMA)" befasst sich damit, Agenten darauf zu trainieren, freiform Sprachanweisungen in einer Vielzahl virtueller 3D-Umgebungen zu befolgen, einschließlich kuratierter Forschungsumgebungen sowie offener, kommerzieller Videospiele. Unser Ziel ist es, einen anweisbaren Agenten zu entwickeln, der alles erreichen kann, was ein Mensch in jeder simulierten 3D-Umgebung tun kann. Unser Ansatz konzentriert sich auf sprachgesteuerte Allgemeingültigkeit, unter minimalen Annahmen. Unsere Agenten interagieren in Echtzeit mit Umgebungen über eine generische, menschenähnliche Schnittstelle: Die Eingaben sind Bildbeobachtungen und Sprachanweisungen, und die Ausgaben sind Tastatur- und Mausaktionen. Dieser allgemeine Ansatz ist anspruchsvoll, ermöglicht es den Agenten jedoch, Sprache in vielen visuell komplexen und semantisch reichen Umgebungen zu verankern, während wir sie auch problemlos in neuen Umgebungen ausführen können. In diesem Papier beschreiben wir unsere Motivation und unser Ziel, den bisherigen Fortschritt und vielversprechende vorläufige Ergebnisse in mehreren verschiedenen Forschungsumgebungen sowie einer Vielzahl von kommerziellen Videospielen.