AI研究論文デイリー

Scaling Instructable Agents Across Many Simulated Worlds

Mar 13

BySIMA Team, Maria Abi Raad, Arun Ahuja, Catarina Barros, Frederic Besse, Andrew Bolt, Adrian Bolton, Bethanie Brownfield, Gavin Buttimore, Max Cant, Sarah Chakera, Stephanie C. Y. Chan, Jeff Clune, Adrian Collister, Vikki Copeman, Alex Cullum, Ishita Dasgupta, Dario de Cesare, Julia Di Trapani, Yani Donchev, Emma Dunleavy, Martin Engelcke, Ryan Faulkner, Frankie Garcia, Charles Gbadamosi, Zhitao Gong, Lucy Gonzales, Karol Gregor, Arne Olav Hallingstad, Tim Harley, Sam Haves, Felix Hill, Ed Hirst, Drew A. Hudson, Steph Hughes-Fitt, Danilo J. Rezende, Mimi Jasarevic, Laura Kampis, Rosemary Ke, Thomas Keck, Junkyung Kim, Oscar Knagg, Kavya Kopparapu, Andrew Lampinen, Shane Legg, Alexander Lerchner, Marjorie Limont, Yulan Liu, Maria Loks-Thompson, Joseph Marino, Kathryn Martin Cussons, Loic Matthey, Siobhan Mcloughlin, Piermaria Mendolicchio, Hamza Merzic, Anna Mitenkova, Alexandre Moufarek, Valeria Oliveira, Yanko Oliveira, Hannah Openshaw, Renke Pan, Aneesh Pappu, Alex Platonov, Ollie Purkiss, David Reichert, John Reid, Pierre Harvey Richemond, Tyson Roberts, Giles Ruscoe, Jaume Sanchez Elias, Tasha Sandars, Daniel P. Sawyer, Tim Scholtes, Guy Simmons, Daniel Slater, Hubert Soyer, Heiko Strathmann, Peter Stys, Allison C. Tam, Denis Teplyashin, Tayfun Terzi, Davide Vercelli, Bojan Vujatovic, Marcus Wainwright, Jane X. Wang, Zhengdong Wang, Daan Wierstra, Duncan Williams, Nathaniel Wong, Sarah York, Nick Young

任意の3D環境において言語指示に従うことができる具現化AIシステムの構築は、汎用AIの創出における重要な課題です。この目標を達成するためには、複雑なタスクを遂行するために、知覚と具現化された行動において言語を接地することを学ぶ必要があります。Scalable, Instructable, Multiworld Agent (SIMA)プロジェクトは、この課題に取り組むために、多様な仮想3D環境（厳選された研究環境やオープンエンドの商用ビデオゲームを含む）において、自由形式の指示に従うエージェントを訓練します。私たちの目標は、シミュレートされた3D環境において人間が行えることを何でも遂行できる指示可能なエージェントを開発することです。私たちのアプローチは、言語駆動の汎用性に焦点を当てつつ、最小限の仮定を課すことにあります。私たちのエージェントは、一般的で人間に似たインターフェースを使用して環境とリアルタイムで相互作用します：入力は画像観測と言語指示であり、出力はキーボードとマウスの操作です。この一般的なアプローチは挑戦的ですが、多くの視覚的に複雑で意味的に豊かな環境において言語を接地することを可能にし、また新しい環境で容易にエージェントを実行することを可能にします。本論文では、私たちの動機と目標、これまでに達成した初期の進捗、およびいくつかの多様な研究環境と様々な商用ビデオゲームにおける有望な予備結果について説明します。

潜在拡散モデルを用いたロングフォーム音楽生成

Long-form music generation with latent diffusion

Apr 16

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

音楽生成のための音声ベース生成モデルは近年大きな進歩を遂げていますが、これまで一貫した音楽構造を持つフルレングスの音楽トラックを生成することには成功していませんでした。本研究では、長時間の時間的文脈で生成モデルを訓練することで、最大4分45秒のロングフォーム音楽を生成可能であることを示します。私たちのモデルは、高度にダウンサンプリングされた連続潜在表現（潜在レート21.5Hz）上で動作する拡散トランスフォーマーで構成されています。このモデルは、音質とプロンプト整合性に関するメトリクスにおいて最先端の生成性能を達成し、主観的評価では一貫した構造を持つフルレングス音楽を生成することが明らかになりました。

•

多くのシミュレーションワールドにわたる指示可能エージェントのスケーリング