翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は様々なタスクで優れた性能を発揮しますが、そのためには入念に設計されたプロンプトが必要であり、多くの場合、多大な人的労力を要します。このプロセスを自動化するため、本論文では、進化的アルゴリズム(EA)のアイデアを借用した新しい離散プロンプト最適化フレームワーク「EvoPrompt」を提案します。EAは優れた性能と高速な収束を示すため、これを活用します。自然言語表現であり、一貫性と人間が読めることが求められる離散プロンプトに対してEAを適用するために、LLMとEAを接続します。このアプローチにより、LLMの強力な言語処理能力とEAの効率的な最適化性能を同時に活用することが可能になります。具体的には、勾配やパラメータを一切使用せず、EvoPromptはプロンプトの集団から始まり、進化的演算子に基づいてLLMを用いて新しいプロンプトを反復的に生成し、開発セットに基づいて集団を改善します。GPT-3.5やAlpacaを含むクローズドおよびオープンソースのLLMに対して、言語理解と生成タスクにまたがる9つのデータセットでプロンプトを最適化します。EvoPromptは、人手で設計されたプロンプトや既存の自動プロンプト生成手法をそれぞれ最大25%および14%上回る性能を示しました。さらに、EvoPromptはLLMとEAを接続することで相乗効果が生まれることを実証し、LLMと従来のアルゴリズムの組み合わせに関するさらなる研究を促す可能性を示しています。
先行研究では、アテンションのソフトマックスをReLUのような点単位の活性化関数に置き換えると精度の低下が観察されていました。ビジョントランスフォーマーの文脈において、シーケンス長で除算することでこの低下が緩和されることがわかりました。ImageNet-21kで小型から大型のビジョントランスフォーマーを訓練した実験結果から、ReLUアテンションは計算量の関数としてのスケーリング特性において、ソフトマックスアテンションの性能に匹敵し、あるいは同等の性能を発揮できることが示されています。
ニューラルネットワークの内部をより深く理解する上での障壁の一つは、多義性(polysemanticity)である。これは、ニューロンが複数の意味的に異なる文脈で活性化するように見える現象を指す。多義性は、ニューラルネットワークが内部で何を行っているかについて、簡潔で人間が理解可能な説明を特定することを妨げる。多義性の原因として仮説の一つに挙げられているのが、重ね合わせ(superposition)である。これは、ニューラルネットワークが、個々のニューロンではなく、活性化空間における過完備な方向セットに特徴を割り当てることで、ニューロンの数以上の特徴を表現する現象である。本研究では、スパースオートエンコーダを使用して言語モデルの内部活性化を再構築し、これらの方向を特定しようと試みた。これらのオートエンコーダは、他の手法で特定された方向よりも解釈可能で単義的(monosemantic)な、疎に活性化する特徴セットを学習する。ここで、解釈可能性は自動化された方法によって測定される。これらの特徴を除去することで、例えば代名詞予測のような能力を削除するなど、モデルの編集を精密に行うことが可能であり、従来の手法よりもモデルの動作を乱すことなく実現できる。この研究は、スケーラブルで教師なしの方法を用いて言語モデルにおける重ね合わせを解決できる可能性を示している。本手法は、将来のメカニズム的解釈可能性研究の基盤として機能し、モデルの透明性と制御性を高めることに貢献することが期待される。
大規模データセット(すなわち「基盤モデル」)でトレーニングされたTransformerのスケーリング挙動に対するパラメータのスパース性の影響を、視覚と言語の両ドメインで探求します。この設定において、重みのスパース性、非ゼロパラメータの数、およびトレーニングデータ量の関係を記述する最初のスケーリング則を特定し、ViT/JFT-4BおよびT5/C4においてモデルとデータのスケールにわたって実証的に検証します。これらの結果により、特定の有効モデルサイズとトレーニング予算に対して最良の性能を発揮する「最適なスパース性」を特徴付けることが可能となります。非ゼロパラメータの数を固定した場合、最適なスパース性はトレーニングに使用されるデータ量とともに増加することがわかります。また、異なるスパース性構造(ハードウェアに優しいn:mパターンなど)や戦略(事前にトレーニングされた密なモデルから始めるなど)についても研究を拡張します。我々の知見は、様々なパラメータと計算設定における重みのスパース性の力と限界を明らかにし、計算効率の向上に向けてスパース性を活用するための理論的理解と実用的な示唆を提供します。
新たな環境において長期的な目標を達成するための効果的な意思決定を行うためには、空間的および時間的なスケールにわたる階層的な推論を行うことが重要である。これには、抽象的なサブゴールのシーケンスを計画し、その基盤となる計画を視覚的に推論し、視覚-運動制御を通じて策定された計画に従って行動を実行することが含まれる。本論文では、階層的計画のための構成要素的基盤モデル(HiP)を提案する。この基盤モデルは、言語、視覚、行動データを個別に学習した複数の専門家基盤モデルを統合し、長期的なタスクを解決するものである。大規模言語モデルを使用して、環境に基づいた記号的計画を構築し、それを大規模ビデオ拡散モデルを通じて具体化する。生成されたビデオ計画は、生成されたビデオから行動を推論する逆動力学モデルを通じて、視覚-運動制御に具体化される。この階層内で効果的な推論を可能にするため、反復的な精緻化を通じてモデル間の一貫性を確保する。本手法の有効性と適応性を、3つの異なる長期的なテーブルトップ操作タスクにおいて実証する。
テキストからオーディオ生成(TTA)における最近の進展にもかかわらず、AudioCapsのようなクラス分布が不均衡なデータセットで学習されたAudioLDMなどの最先端モデルは、生成性能に偏りがあることを示します。具体的には、一般的なオーディオクラスの生成には優れている一方で、稀なクラスでは性能が低く、全体的な生成性能が低下しています。この問題を「ロングテール型テキストからオーディオ生成」と呼びます。この課題に対処するため、TTAモデルに対してシンプルな検索拡張アプローチを提案します。具体的には、入力テキストプロンプトが与えられた際、まずContrastive Language Audio Pretraining(CLAP)モデルを活用して関連するテキスト-オーディオペアを検索します。検索されたオーディオ-テキストデータの特徴を、TTAモデルの学習をガイドするための追加条件として使用します。提案アプローチをAudioLDMに組み込み、拡張されたシステムをRe-AudioLDMと命名します。AudioCapsデータセットにおいて、Re-AudioLDMはFrechet Audio Distance(FAD)1.37を達成し、既存のアプローチを大幅に上回る最先端の性能を示します。さらに、Re-AudioLDMは複雑なシーン、稀なオーディオクラス、さらには未見のオーディオタイプに対しても現実的なオーディオを生成できることを示し、TTAタスクにおける潜在能力を示しています。
テキストから画像を生成する拡散モデルは、物体間の空間的関係を理解しますが、2次元の監視のみから世界の真の3次元構造を表現しているのでしょうか?私たちは、Stable Diffusionのような2次元画像拡散モデルに3次元の知識がエンコードされていることを実証し、この構造を3次元視覚タスクに活用できることを示します。私たちの手法であるViewpoint Neural Textual Inversion(ViewNeTI)は、凍結された拡散モデルから生成される画像内の物体の3次元視点を制御します。小さなニューラルマッパーを訓練し、カメラ視点パラメータを受け取ってテキストエンコーダの潜在変数を予測します。これらの潜在変数は、拡散生成プロセスを条件付けし、所望のカメラ視点を持つ画像を生成します。 ViewNeTIは、新視点合成(Novel View Synthesis, NVS)に自然に対応します。凍結された拡散モデルを事前知識として活用することで、非常に少ない入力ビューでNVSを解決できます。さらに、単一ビューからの新視点合成も可能です。私たちの単一ビューNVS予測は、従来の手法と比較して優れた意味的詳細と写実性を持っています。このアプローチは、不確実性を内在する疎な3次元視覚問題のモデリングに適しています。なぜなら、多様なサンプルを効率的に生成できるからです。私たちの視点制御メカニズムは汎用的であり、ユーザー定義のプロンプトから生成された画像のカメラ視点を変更することもできます。