多くのシミュレーションワールドにわたる指示可能エージェントのスケーリング
Scaling Instructable Agents Across Many Simulated Worlds
March 13, 2024
著者: SIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young
cs.AI
要旨
任意の3D環境において言語指示に従うことができる具現化AIシステムの構築は、汎用AIの創出における重要な課題です。この目標を達成するためには、複雑なタスクを遂行するために、知覚と具現化された行動において言語を接地することを学ぶ必要があります。Scalable, Instructable, Multiworld Agent (SIMA)プロジェクトは、この課題に取り組むために、多様な仮想3D環境(厳選された研究環境やオープンエンドの商用ビデオゲームを含む)において、自由形式の指示に従うエージェントを訓練します。私たちの目標は、シミュレートされた3D環境において人間が行えることを何でも遂行できる指示可能なエージェントを開発することです。私たちのアプローチは、言語駆動の汎用性に焦点を当てつつ、最小限の仮定を課すことにあります。私たちのエージェントは、一般的で人間に似たインターフェースを使用して環境とリアルタイムで相互作用します:入力は画像観測と言語指示であり、出力はキーボードとマウスの操作です。この一般的なアプローチは挑戦的ですが、多くの視覚的に複雑で意味的に豊かな環境において言語を接地することを可能にし、また新しい環境で容易にエージェントを実行することを可能にします。本論文では、私たちの動機と目標、これまでに達成した初期の進捗、およびいくつかの多様な研究環境と様々な商用ビデオゲームにおける有望な予備結果について説明します。
English
Building embodied AI systems that can follow arbitrary language instructions
in any 3D environment is a key challenge for creating general AI. Accomplishing
this goal requires learning to ground language in perception and embodied
actions, in order to accomplish complex tasks. The Scalable, Instructable,
Multiworld Agent (SIMA) project tackles this by training agents to follow
free-form instructions across a diverse range of virtual 3D environments,
including curated research environments as well as open-ended, commercial video
games. Our goal is to develop an instructable agent that can accomplish
anything a human can do in any simulated 3D environment. Our approach focuses
on language-driven generality while imposing minimal assumptions. Our agents
interact with environments in real-time using a generic, human-like interface:
the inputs are image observations and language instructions and the outputs are
keyboard-and-mouse actions. This general approach is challenging, but it allows
agents to ground language across many visually complex and semantically rich
environments while also allowing us to readily run agents in new environments.
In this paper we describe our motivation and goal, the initial progress we have
made, and promising preliminary results on several diverse research
environments and a variety of commercial video games.Summary
AI-Generated Summary