ChatPaper.aiChatPaper

Scalabilità di Agenti Istruibili Attraverso Molti Mondi Simulati

Scaling Instructable Agents Across Many Simulated Worlds

March 13, 2024
Autori: SIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
cs.AI

Abstract

Costruire sistemi di intelligenza artificiale incarnata in grado di seguire istruzioni linguistiche arbitrarie in qualsiasi ambiente 3D rappresenta una sfida fondamentale per la creazione di un'IA generale. Raggiungere questo obiettivo richiede imparare a fondare il linguaggio nella percezione e nelle azioni incarnate, al fine di portare a termine compiti complessi. Il progetto Scalable, Instructable, Multiworld Agent (SIMA) affronta questa sfida addestrando agenti a seguire istruzioni libere in una vasta gamma di ambienti virtuali 3D, inclusi ambienti di ricerca curati e videogiochi commerciali aperti. Il nostro obiettivo è sviluppare un agente istruibile in grado di realizzare qualsiasi cosa un essere umano possa fare in qualsiasi ambiente 3D simulato. Il nostro approccio si concentra sulla generalità guidata dal linguaggio, imponendo il minor numero possibile di assunzioni. I nostri agenti interagiscono con gli ambienti in tempo reale utilizzando un'interfaccia generica e simile a quella umana: gli input sono osservazioni visive e istruzioni linguistiche, mentre gli output sono azioni da tastiera e mouse. Questo approccio generale è impegnativo, ma consente agli agenti di fondare il linguaggio in molti ambienti visivamente complessi e semanticamente ricchi, permettendoci anche di eseguire facilmente gli agenti in nuovi ambienti. In questo articolo descriviamo la nostra motivazione e il nostro obiettivo, i progressi iniziali ottenuti e i promettenti risultati preliminari su diversi ambienti di ricerca e una varietà di videogiochi commerciali.
English
Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.
PDF281April 30, 2026