翻訳付きの日次キュレーションされたAI研究論文
私たちは、Minecraft内で世界を継続的に探索し、多様なスキルを獲得し、人間の介入なしに新たな発見を行う、初のLLM駆動型具身生涯学習エージェント「Voyager」を紹介します。Voyagerは以下の3つの主要コンポーネントで構成されています:1) 探索を最大化する自動カリキュラム、2) 複雑な行動を保存・検索するための実行可能なコードからなる常に成長するスキルライブラリ、3) 環境フィードバック、実行エラー、自己検証を取り入れた新しい反復的プロンプティングメカニズムです。VoyagerはGPT-4とブラックボックスクエリを介して相互作用し、モデルパラメータの微調整を必要としません。Voyagerによって開発されたスキルは、時間的に拡張可能で、解釈可能であり、構成可能であるため、エージェントの能力が急速に向上し、破滅的忘却を軽減します。実験的に、Voyagerは強力な文脈内生涯学習能力を示し、Minecraftのプレイにおいて卓越した熟練度を発揮します。Voyagerは、従来のSOTAと比較して、3.3倍のユニークアイテムを獲得し、2.3倍の長距離を移動し、主要なテックツリーマイルストーンを最大15.3倍速く解除します。Voyagerは、学習したスキルライブラリを新しいMinecraftワールドで活用し、ゼロから新たなタスクを解決することができますが、他の技術は一般化に苦労します。私たちは、完全なコードベースとプロンプトをhttps://voyager.minedojo.org/でオープンソースとして公開しています。
スコア蒸留サンプリング(SDS)は、事前学習済みの大規模テキスト-to-画像拡散モデルを蒸留することで、テキスト-to-3D生成において大きな可能性を示していますが、過剰な飽和、過剰な平滑化、および低多様性の問題に悩まされています。本研究では、3DパラメータをSDSのように定数ではなく確率変数としてモデル化し、前述の問題を説明し解決するための原理に基づいた粒子ベースの変分フレームワークである変分スコア蒸留(VSD)を提案します。SDSはVSDの特殊ケースであり、小さなCFG重みと大きなCFG重みの両方でサンプルの質が低下することを示します。一方、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重みで良好に機能し、共通のCFG重み(例:7.5)で多様性とサンプル品質を同時に向上させます。さらに、蒸留時間スケジュールや密度初期化など、テキスト-to-3Dの設計空間における様々な改善を提示します。これらは蒸留アルゴリズムとは直交するものの、十分に探索されていませんでした。我々のアプローチ全体を「ProlificDreamer」と名付け、高レンダリング解像度(例:512×512)と高忠実度のNeRFを生成し、豊かな構造と複雑な効果(例:煙や水滴)を実現します。さらに、NeRFから初期化されたメッシュをVSDで微調整することで、細部まで精巧で写真のようにリアルな結果を得ることができます。プロジェクトページ: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
より弱い言語モデルを低コストで改善する新たな手法として、ChatGPTのような強力なプロプライエタリシステムからの出力を用いてファインチューニングする方法が注目されている(例:Alpaca、Self-Instructなど)。このアプローチは、弱いオープンソースモデルを使ってプロプライエタリモデルの能力を低コストで模倣することを目指している。本研究では、このアプローチを批判的に分析する。まず、ベースモデルのサイズ(1.5B~13B)、データソース、および模倣データ量(0.3M~150Mトークン)を変えて、ChatGPTを模倣する一連の言語モデルをファインチューニングした。次に、クラウドワーカーによる評価と標準的なNLPベンチマークを用いてモデルを評価した。当初、模倣モデルの出力品質に驚かされた――指示に従う能力が非常に高く、クラウドワーカーはその出力をChatGPTと競合すると評価した。しかし、よりターゲットを絞った自動評価を行うと、模倣データで十分にサポートされていないタスクにおいて、模倣モデルはベースモデルからChatGPTまでのギャップをほとんど埋められないことがわかった。これらの性能の不一致は、模倣モデルがChatGPTのスタイルを巧みに真似るが、その事実性を再現できないため、人間の評価者に見逃される可能性があることを示す。全体として、モデルの模倣は偽りの約束であると結論付ける:現在の手法では、膨大な量の模倣データを使用するか、より能力の高いベースモデルを使用するしか、オープンとクローズドの言語モデルの間にある大きな能力のギャップを埋めることはできない。そのため、オープンソースモデルを改善するための最も効果的なアクションは、プロプライエタリシステムを模倣するという近道を選ぶのではなく、より優れたベースモデルを開発するという難しい課題に取り組むことであると主張する。
Stable Diffusionモデル(SDM)の優れたテキストから画像(T2I)生成能力は、多大な計算リソースを必要とします。この問題を解決するため、最近の効率的なSDMに関する研究では、サンプリングステップ数の削減やネットワークの量子化に焦点が当てられてきました。これらとは異なるアプローチとして、本研究では、ブロック除去型知識蒸留SDM(BK-SDM)を導入し、汎用T2I合成における古典的なアーキテクチャ圧縮の有効性を明らかにします。SDMのU-Netから複数の残差ブロックとアテンションブロックを除去することで、パラメータ数、サンプリングステップあたりのMACs、およびレイテンシを30%以上削減しました。さらに、わずか0.22MのLAIONペア(全学習ペアの0.1%未満)を用いて、単一のA100 GPUで蒸留ベースの事前学習を実施しました。限られたリソースで学習されたにもかかわらず、我々のコンパクトモデルは、転移された知識を活用して元のSDMを模倣し、ゼロショットMS-COCOベンチマークにおいて、数十億パラメータを持つ大規模モデルと競合する結果を達成しました。さらに、DreamBoothファインチューニングを用いたパーソナライズド生成において、軽量な事前学習モデルの適用可能性を実証しました。
テキストから画像を生成する拡散モデルは、ユーザーが提供するテキストプロンプトに基づいて多様で高精細な画像を生成できます。最近の研究では、これらのモデルを拡張し、テキストガイドによる画像編集をサポートしています。テキストガイダンスはユーザーにとって直感的な編集インターフェースですが、ユーザーが伝えたい正確な概念を保証できないことがしばしばあります。この問題を解決するため、私たちはCustom-Editを提案します。Custom-Editでは、(i) 少数の参照画像を用いて拡散モデルをカスタマイズし、(ii) テキストガイドによる編集を行います。私たちの重要な発見は、拡張プロンプトを用いて言語関連のパラメータのみをカスタマイズすることで、参照画像との類似性を大幅に向上させつつ、元画像との類似性を維持できることです。さらに、各カスタマイズと編集プロセスにおけるレシピを提供します。人気のあるカスタマイズ手法を比較し、複数のデータセットを用いた2つの編集手法で私たちの知見を検証します。
近年の音楽生成における進展は、最先端のMusicLMによって著しく推進されてきた。MusicLMは、意味的モデリング、粗い音響モデリング、および細かい音響モデリングのための3つのLM(言語モデル)の階層構造を備えている。しかし、MusicLMを用いたサンプリングでは、これらのLMを順次処理して細かい音響トークンを取得する必要があり、計算コストが高く、リアルタイム生成には不向きである。MusicLMと同等の品質を保ちつつ効率的に音楽を生成することは、依然として重要な課題である。本論文では、MeLoDy(Mは音楽、LはLM、Dは拡散モデルを表す)を提案する。これは、LMガイド付き拡散モデルであり、最先端の品質の音楽オーディオを生成しつつ、10秒または30秒の音楽をサンプリングする際に、MusicLMのフォワードパスをそれぞれ95.7%または99.6%削減する。MeLoDyは、意味的モデリングのためにMusicLMの最上位レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付けされた意味トークンを波形に効率的にデコードする。DPDは、各ノイズ除去ステップでクロスアテンションを介してセグメントの潜在変数に意味情報を効果的に組み込むことで、粗い音響と細かい音響を同時にモデル化するために提案された。実験結果は、MeLoDyの優位性を示しており、サンプリング速度と無限に継続可能な生成における実用的な利点だけでなく、最先端の音楽性、オーディオ品質、およびテキスト相関においても優れていることを示唆している。サンプルはhttps://Efficient-MeLoDy.github.io/で公開されている。
本論文では、リーマン多様体上で定義された連続関数の生成モデルを学習する手法として、Manifold Diffusion Fields(MDF)を提案します。スペクトル幾何解析の知見を活用し、ラプラス・ベルトラミ作用素の固有関数を用いて多様体上の内在的な座標系を定義します。MDFは、複数の入力-出力ペアからなる明示的なパラメータ化によって関数を表現します。本手法により、多様体上の連続関数をサンプリングすることが可能となり、多様体の剛体変換や等長変換に対して不変性を有します。複数のデータセットと多様体における実験結果から、MDFが従来手法よりも優れた多様性と忠実度で関数の分布を捉えられることが示されました。
テキストから画像を生成する拡散モデルは、現実の画像と見分けがつかないような画像を生成できるようになりました。このような画像を生成するためには、これらのモデルは生成対象となるオブジェクトの意味を理解する必要があります。本研究では、訓練を一切行わずに、拡散モデル内に存在するこの意味的知識を活用して、複数の画像間で同じ意味を持つ位置(意味的対応)を見つけることができることを示します。具体的には、与えられた画像に対して、関心領域に最大の注意が向くようにプロンプトの埋め込みを最適化します。これらの最適化された埋め込みは、その位置に関する意味的情報を捉えており、それを別の画像に転送することができます。この手法により、PF-Willowデータセットにおいて強教師ありの最先端技術と同等の結果を得ることができ、PF-Willow、CUB-200、SPair-71kデータセットにおいて、既存の弱教師ありまたは教師なしの手法を大幅に上回る性能(SPair-71kデータセットでは20.9%の相対的改善)を達成しました。