翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの再現性と透明性は、オープン研究の推進、結果の信頼性の確保、データやモデルのバイアス、および潜在的なリスクの調査を可能にするために極めて重要です。この目的のために、我々は最先端のオープン言語モデルであるOpenELMを公開します。OpenELMは、トランスフォーマーモデルの各層内でパラメータを効率的に割り当てるための層ごとのスケーリング戦略を使用し、精度の向上を実現しています。例えば、約10億パラメータの予算で、OpenELMはOLMoと比較して2.36%の精度向上を示し、かつ事前学習に必要なトークン数が2倍少なくて済みます。 従来の慣習であるモデルの重みと推論コードのみを提供し、非公開データセットで事前学習を行う方法から一線を画し、我々のリリースには、公開されているデータセット上での言語モデルの学習と評価のための完全なフレームワークが含まれています。これには、学習ログ、複数のチェックポイント、事前学習の設定が含まれます。また、Appleデバイス上での推論とファインチューニングのために、モデルをMLXライブラリに変換するコードも公開しています。この包括的なリリースは、オープン研究コミュニティを強化し、将来のオープン研究の取り組みの道を開くことを目的としています。 我々のソースコード、事前学習済みモデルの重み、および学習レシピは、https://github.com/apple/corenet で利用可能です。さらに、\model モデルはHuggingFaceの https://huggingface.co/apple/OpenELM で見つけることができます。
スパース・ミクスチャー・オブ・エキスパーツ(SMoE)は、トレーニングや推論コストを大幅に増加させることなくモデルの容量を拡張しますが、以下の2つの課題があります:(1)エキスパートの活性化が低く、最適化のためにごく少数のエキスパートのみが活性化される。(2)個々のトークン内の複数の意味概念に対する細かい分析能力が欠如している。本論文では、マルチヘッド・ミクスチャー・オブ・エキスパーツ(MH-MoE)を提案します。これは、マルチヘッド機構を用いて各トークンを複数のサブトークンに分割し、これらのサブトークンを多様なエキスパートに割り当てて並列処理し、元のトークン形式にシームレスに再統合します。マルチヘッド機構により、モデルは異なるエキスパート内の様々な表現空間からの情報を集約的に注意を払うことができ、エキスパートの活性化を大幅に向上させ、コンテキスト理解を深め、過学習を緩和します。さらに、MH-MoEは実装が容易で、他のSMoE最適化手法から切り離されているため、他のSMoEモデルと簡単に統合して性能を向上させることができます。英語中心の言語モデリング、多言語言語モデリング、マスクされたマルチモダリティモデリングの3つのタスクにわたる広範な実験結果は、MH-MoEの有効性を示しています。
大規模ゼロショット音声合成における最近の進展は、言語モデルと拡散モデルによって大きく推進されてきた。しかし、これらの手法の生成プロセスは遅く、計算量も多い。従来の研究と同等の品質を維持しつつ、低い計算予算で効率的な音声合成を実現することは依然として重要な課題である。本論文では、従来の研究と比較して推論時間が約5%である大規模ゼロショット音声合成システム「FlashSpeech」を提案する。FlashSpeechは潜在的一貫性モデルを基盤としており、教師モデルとして事前学習済みの拡散モデルを必要とせずにスクラッチから学習可能な新たな敵対的一貫性学習アプローチを適用している。さらに、新しい韻律生成モジュールにより韻律の多様性が向上し、音声のリズムがより自然になる。FlashSpeechの生成プロセスは、1回または2回のサンプリングステップで効率的に達成され、高品質な音声とゼロショット音声生成における音声プロンプトとの高い類似性を維持する。実験結果は、FlashSpeechの優れた性能を示している。特に、FlashSpeechは他のゼロショット音声合成システムと比較して約20倍高速でありながら、音声品質と類似性の点で同等の性能を維持する。さらに、FlashSpeechは、音声変換、音声編集、多様な音声サンプリングなどのタスクを効率的に実行する汎用性を実証している。音声サンプルはhttps://flashspeech.github.io/で確認できる。
本技術レポートでは、ビデオコンテンツの理解と自然言語によるインタラクションに特化したマルチモーダル言語モデル「Pegasus-1」を紹介する。Pegasus-1は、時空間情報の解釈など、ビデオデータが持つ特有の課題に対処するために設計されており、様々な長さのビデオコンテンツに対する微妙な理解を提供する。本レポートでは、Pegasus-1のアーキテクチャ、トレーニング戦略、およびビデオ会話、ゼロショットビデオ質問応答、ビデオ要約におけるベンチマーク性能を概説する。また、Pegasus-1の定性的特性を探り、その能力と限界を示すことで、読者に現在の状態と将来の方向性についてバランスの取れた視点を提供する。
大規模言語モデル(LLMs)は、広範なコンテキストの処理において顕著な進歩を遂げており、その性能向上においてKey-Value(KV)キャッシュが重要な役割を果たしています。しかし、入力長の増加に伴うKVキャッシュの拡大は、メモリと時間効率に課題をもたらします。この問題に対処するため、本論文ではSnapKVを紹介します。これは、実世界のアプリケーションにおいて同等の性能を維持しながら、KVキャッシュサイズを効率的に最小化する、ファインチューニングを必要としない革新的なアプローチです。 モデル内の各アテンションヘッドは、生成中に特定のプロンプトアテンション特徴に一貫して焦点を当てることがわかっています。一方で、この強力なパターンは、プロンプトの末尾にある「観測」ウィンドウから得ることができます。この洞察に基づき、SnapKVは、各アテンションヘッドに対してクラスタ化された重要なKV位置を選択することで、KVキャッシュを自動的に圧縮します。このアプローチにより、長い入力シーケンスを処理する際の計算オーバーヘッドとメモリフットプリントの増大を大幅に削減します。具体的には、SnapKVは、16Kトークンの入力を処理する際に、ベースラインと比較して3.6倍の生成速度の向上と8.2倍のメモリ効率の向上を実現し、一貫したデコード速度を達成します。同時に、16の長いシーケンスデータセットにおいて、ベースラインモデルと同等の性能を維持します。さらに、SnapKVは、HuggingFaceの実装にわずかな変更を加えることで、単一のA100-80GB GPU上で最大380Kのコンテキストトークンを処理でき、Needle-in-a-Haystackテストにおいても精度の低下はごくわずかです。さらなる包括的な研究は、SnapKVの実用的なアプリケーションへの可能性を示唆しています。
拡散モデル(DMs)は、視覚領域をはじめとする生成モデリング手法の最先端として確立されています。DMsの重要な欠点は、大規模なニューラルネットワークを通じた多くの逐次的な関数評価に依存するため、サンプリング速度が遅いことです。DMsからのサンプリングは、サンプリングスケジュールとして知られる離散化されたノイズレベルを通じて微分方程式を解くことと見なすことができます。これまでの研究は主に効率的なソルバーの導出に焦点を当ててきましたが、最適なサンプリングスケジュールを見つけることにはほとんど注意が払われておらず、既存の文献は手作りのヒューリスティックに依存しています。本研究では、初めて、高品質な出力のためのDMsのサンプリングスケジュールを最適化する一般的で原理に基づいたアプローチを提案します。これを「Align Your Steps」と呼びます。我々は確率解析の手法を活用し、異なるソルバー、訓練済みのDMs、およびデータセットに特化した最適なスケジュールを見つけます。我々の新しいアプローチを、いくつかの画像、ビデオ、および2Dのトイデータ合成ベンチマークで評価し、さまざまなサンプラーを使用して、最適化されたスケジュールが従来の手作りのスケジュールをほぼすべての実験で上回ることを観察しました。我々の方法は、特に少ステップ合成の領域において、サンプリングスケジュール最適化の未開拓の可能性を示しています。
既存の研究の多くは、トランスフォーマーアーキテクチャの能力を、計算の形式的モデルを用いてその表現能力を記述することで分析してきました。しかし、これまでの焦点は主に言語受理の観点からこのアーキテクチャを分析することに置かれてきました。我々は、このアプローチが言語モデル(LM)の研究において不適切であると主張します。なぜなら、言語モデルは定義上、文字列上の確率分布だからです。本論文では、トランスフォーマーLMとn-gram LMという、シンプルで歴史的に重要なクラスの言語モデルとの関係に焦点を当てます。我々は、ハードまたはスパースアテンションメカニズムを使用するトランスフォーマーLMが、任意のn-gram LMを正確に表現できることを示し、それらの確率的表現能力に関する具体的な下限を与えます。これは、トランスフォーマーLMが文字列上の確率分布を表現するために使用できるメカニズムを理解するための第一歩を提供します。