翻訳付きの日次キュレーションされたAI研究論文
任意の3D環境において言語指示に従うことができる具現化AIシステムの構築は、汎用AIの創出における重要な課題です。この目標を達成するためには、複雑なタスクを遂行するために、知覚と具現化された行動において言語を接地することを学ぶ必要があります。Scalable, Instructable, Multiworld Agent (SIMA)プロジェクトは、この課題に取り組むために、多様な仮想3D環境(厳選された研究環境やオープンエンドの商用ビデオゲームを含む)において、自由形式の指示に従うエージェントを訓練します。私たちの目標は、シミュレートされた3D環境において人間が行えることを何でも遂行できる指示可能なエージェントを開発することです。私たちのアプローチは、言語駆動の汎用性に焦点を当てつつ、最小限の仮定を課すことにあります。私たちのエージェントは、一般的で人間に似たインターフェースを使用して環境とリアルタイムで相互作用します:入力は画像観測と言語指示であり、出力はキーボードとマウスの操作です。この一般的なアプローチは挑戦的ですが、多くの視覚的に複雑で意味的に豊かな環境において言語を接地することを可能にし、また新しい環境で容易にエージェントを実行することを可能にします。本論文では、私たちの動機と目標、これまでに達成した初期の進捗、およびいくつかの多様な研究環境と様々な商用ビデオゲームにおける有望な予備結果について説明します。
音楽生成のための音声ベース生成モデルは近年大きな進歩を遂げていますが、これまで一貫した音楽構造を持つフルレングスの音楽トラックを生成することには成功していませんでした。本研究では、長時間の時間的文脈で生成モデルを訓練することで、最大4分45秒のロングフォーム音楽を生成可能であることを示します。私たちのモデルは、高度にダウンサンプリングされた連続潜在表現(潜在レート21.5Hz)上で動作する拡散トランスフォーマーで構成されています。このモデルは、音質とプロンプト整合性に関するメトリクスにおいて最先端の生成性能を達成し、主観的評価では一貫した構造を持つフルレングス音楽を生成することが明らかになりました。