翻訳付きの日次キュレーションされたAI研究論文
近年の機械学習における画期的な成功は、主にスケールに起因している。具体的には、大規模なアテンションベースのアーキテクチャと前例のない規模のデータセットがその要因である。本論文では、チェスにおける大規模トレーニングの影響を調査する。複雑なヒューリスティックや明示的な探索、またはその両方に依存する従来のチェスエンジンとは異なり、我々は1000万局のチェスゲームのデータセットを用いて、2億7000万パラメータのトランスフォーマーモデルを教師あり学習でトレーニングした。データセット内の各盤面には、強力なStockfish 16エンジンによって提供されるアクション値を注釈し、約150億のデータポイントを生成した。我々の最大のモデルは、人間相手にLichess blitz Eloで2895を達成し、ドメイン固有の調整や明示的な探索アルゴリズムなしに、一連の難しいチェスのパズルを成功裏に解決した。また、我々のモデルがAlphaZeroのポリシーおよびバリューネットワーク(MCTSなし)およびGPT-3.5-turbo-instructを上回ることを示す。モデルとデータセットのサイズに関する体系的な調査により、十分なスケールでのみ強力なチェス性能が発現することが明らかになった。結果を検証するため、設計選択とハイパーパラメータの広範なアブレーション実験を実施した。
スクリーンユーザーインターフェース(UI)とインフォグラフィックは、類似した視覚言語とデザイン原則を共有し、人間同士のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしています。本論文では、UIとインフォグラフィックの理解に特化した視覚言語モデルであるScreenAIを紹介します。私たちのモデルは、PaLIアーキテクチャを基盤とし、pix2structの柔軟なパッチング戦略を取り入れて改良されています。また、独自のデータセットの組み合わせで学習されています。この組み合わせの中核となるのは、モデルがUI要素の種類と位置を特定する必要がある新しいスクリーン注釈タスクです。これらのテキスト注釈を使用して、大規模言語モデルにスクリーンを説明し、質問応答(QA)、UIナビゲーション、要約のトレーニングデータセットを自動的に大規模に生成します。これらの設計選択の影響を実証するために、アブレーションスタディを実施しています。わずか50億パラメータのScreenAIは、UIおよびインフォグラフィックベースのタスク(Multi-page DocVQA、WebSRC、MoTIF、Widget Captioning)において新たな最先端の結果を達成し、類似サイズのモデルと比較して他のタスク(Chart QA、DocVQA、InfographicVQA)でも最高クラスの性能を発揮します。最後に、スクリーン注釈タスクに焦点を当てた1つのデータセットと、質問応答に焦点を当てた2つの新しいデータセットを公開します。
直接選好アライメント(DAP)手法、例えばDPOは、最近、人間のフィードバックからの強化学習(RLHF)に代わる効率的な手法として登場し、別個の報酬モデルを必要としません。しかし、DAP手法で使用される選好データセットは通常、トレーニング前に収集され、更新されることはないため、フィードバックは完全にオフラインです。さらに、これらのデータセット内の応答は、アライメント対象の言語モデルとは異なるモデルからサンプリングされることが多く、モデルはトレーニング中に進化するため、アライメントフェーズは必然的にオフポリシーになります。本研究では、オンラインフィードバックが鍵であり、DAP手法を改善すると主張します。私たちの手法であるオンラインAIフィードバック(OAIF)は、LLMをアノテーターとして使用します。各トレーニングイテレーションで、現在のモデルから2つの応答をサンプリングし、LLMアノテーターにどちらが好ましいかを選択するよう促すことで、オンラインフィードバックを提供します。そのシンプルさにもかかわらず、いくつかのタスクでの人間評価を通じて、OAIFがオフラインDAPおよびRLHF手法を上回ることを実証します。さらに、LLMアノテーターへの指示プロンプトを通じて、OAIFで活用されるフィードバックが容易に制御可能であることも示します。
3Dコンテンツ作成は、品質と速度の両面で大きな進展を遂げています。現在のフィードフォワードモデルは数秒で3Dオブジェクトを生成できますが、その解像度はトレーニング時に必要な膨大な計算量によって制限されています。本論文では、テキストプロンプトや単一視点画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model(LGM)を提案します。私たちの主要な洞察は2つあります:1)3D表現:効率的でありながら強力な表現としてマルチビューガウシアンフィーチャーを提案し、これを融合して微分可能なレンダリングを実現します。2)3Dバックボーン:マルチビュー画像上で動作する高スループットのバックボーンとして非対称U-Netを提示し、これはマルチビューディフュージョンモデルを活用してテキストや単一視点画像入力から生成できます。大規模な実験により、本手法の高忠実度と効率性が実証されました。特に、5秒以内で3Dオブジェクトを生成する高速性を維持しつつ、トレーニング解像度を512に向上させることで、高解像度の3Dコンテンツ生成を実現しています。
私たちは、高速化されたSegment Anythingモデルの新たなファミリーであるEfficientViT-SAMを提案します。SAMの軽量なプロンプトエンコーダとマスクデコーダを保持しつつ、重い画像エンコーダをEfficientViTに置き換えました。トレーニングにおいては、まずSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留を行い、その後SA-1Bデータセットでエンドツーエンドのトレーニングを実施しました。EfficientViTの効率性と能力を活かし、EfficientViT-SAMはA100 GPU上でSAM-ViT-Hと比較して48.9倍のTensorRT高速化を実現しつつ、性能を犠牲にしませんでした。私たちのコードと事前学習済みモデルはhttps://github.com/mit-han-lab/efficientvitで公開されています。
Transformerベースの大規模言語モデル(LLM)は現在、数億人のユーザーに展開されています。LLMの推論は、通常、few-shotの例やチャットボットシステムのプロンプトなど、共通のプレフィックスを持つシーケンスのバッチで実行されます。この大規模バッチ設定でのデコードは、メモリから大規模なキー・バリュー(KV)キャッシュを読み取り、バッチ内のすべてのシーケンスに対して非効率な行列-ベクトル積を計算するアテンション操作によってボトルネックとなることがあります。本研究では、共有プレフィックスを持つアテンションのハードウェアを意識した正確な実装であるHydragenを紹介します。Hydragenは、共有プレフィックスとユニークなサフィックスに対して別々にアテンションを計算します。この分解により、シーケンス間でクエリをバッチ処理することで効率的なプレフィックスアテンションを実現し、冗長なメモリ読み取りを削減し、ハードウェアに適した行列乗算の使用を可能にします。私たちの手法は、競合するベースラインに対して最大32倍のエンドツーエンドのLLMスループット向上をもたらし、バッチサイズと共有プレフィックスの長さが増えるほど速度が向上します。Hydragenはまた、非常に長い共有コンテキストの使用を可能にします。高バッチサイズでは、プレフィックスの長さを1Kトークンから16Kトークンに増やしても、Hydragenのスループットは15%未満しか低下しませんが、ベースラインのスループットは90%以上低下します。Hydragenは単純なプレフィックス-サフィックス分解を超えて一般化され、ツリーベースのプロンプト共有パターンにも適用でき、競技プログラミング問題での推論時間をさらに55%削減することができます。
大規模言語モデルは、人間レベルの推論能力を必要とされるタスクをますます解決できるようになっている。しかし、これらのモデルは、抽象化と推論コーパス(ARC)のような一般的な知能のベンチマークでは依然として非常に低い性能しか示していない。本論文では、ARCを例によるプログラミング問題としてアプローチし、言語モデルの自己改善を可能にする新規でスケーラブルな手法であるCode Iteration(CodeIt)を提案する。我々の手法は、1) プログラムサンプリングと後知恵的ラベリング、2) 優先順位付き経験再生からの学習、の2つを反復的に行う。エピソードの目標(すなわち、入力に対する目標プログラム出力)をサンプリングされたプログラムが生成した実際の出力に再ラベリングすることで、本手法はプログラム合成における報酬の極端な希薄性に効果的に対処する。ARCデータセットにCodeItを適用し、優先順位付き後知恵的再生と事前学習、データ拡張を組み合わせることで、タスク間の一般化に成功することを示す。CodeItは、完全なARC評価データセットにスケールする最初のニューロシンボリックアプローチである。本手法はARC評価タスクの15%を解決し、最先端の性能を達成し、既存のニューラルおよびシンボリックベースラインを上回る結果を示した。
線形アテンションはTransformerの効率化において潜在能力を示しており、アテンションの二次的な計算量をシーケンス長に対して線形に削減します。これは、(1)線形Transformerをゼロから訓練する、(2)タスク固有のTransformerを線形バージョンに「ファインチューニング変換」し、タスク性能を回復する、(3)大規模言語モデルなどのTransformerを線形バージョンに「事前学習変換」し、下流タスクでファインチューニング可能にする、といったエキサイティングな可能性を秘めています。しかし、線形アテンションは品質面で標準的なソフトマックスアテンションに劣ることが多いです。この性能差を埋めるため、従来の線形アテンションには、良好な性能に関連するソフトマックスアテンションの重要な特性、すなわち低エントロピー(または「スパイキー」)な重みと内積単調性が欠けていることがわかりました。さらに、これらの特性を保持しつつソフトマックス性能に匹敵する驚くほど単純な特徴マップを観察しましたが、線形アテンションでは計算効率が悪いことが判明しました。そこで、ソフトマックスアテンションのスパイキー性と単調性を保持しつつ線形計算量を維持する学習可能な線形アテンション「Hedgehog」を提案します。Hedgehogは、ソフトマックスアテンションを模倣するアテンション重みを生成するために単純な学習可能なMLPを使用します。実験では、Hedgehogがゼロからの訓練およびファインチューニング変換の設定において標準Transformerの品質の99%以上を回復し、因果的GPTモデルではWikiText-103において従来の線形アテンションを最大6パープレキシティポイント、双方向BERTモデルではGLUEスコアで最大8.7ポイント上回りました。Hedgehogは事前学習変換も可能にします。事前学習済みGPT-2を線形アテンションバージョンに変換することで、125MパラメータのサブクアドラティックデコーダモデルにおいてWikiText-103で最先端の16.7パープレキシティを達成しました。最後に、事前学習済みLlama-2 7Bを実用的な線形アテンションLlamaに変換しました。低ランク適応を用いることで、Hedgehog-Llama2 7Bはベースの標準アテンションモデルに対して28.1ポイント高いROUGE-1スコアを達成し、従来の線形アテンションでは16.5ポイントの低下が生じていました。
テキストプロンプトから44.1kHzステレオ音声の長尺生成を行うことは、計算リソースを多く必要とする課題です。さらに、これまでの研究の多くは、音楽や効果音が自然に持つ時間的な長さの多様性に対応していませんでした。本研究では、生成モデルを用いてテキストプロンプトから44.1kHzの長尺で可変長のステレオ音楽や音響を効率的に生成することに焦点を当てています。Stable Audioは潜在拡散モデルを基盤としており、その潜在空間は完全畳み込み型の変分オートエンコーダによって定義されています。テキストプロンプトに加えてタイミング埋め込みを条件付けすることで、生成される音楽や音響の内容と長さを細かく制御することが可能です。Stable Audioは、A100 GPU上で8秒間で最大95秒の44.1kHzステレオ信号を生成することができます。計算効率が高く推論が高速であるにもかかわらず、2つの公開されているテキストから音楽および音響を生成するベンチマークにおいて最高レベルの性能を発揮し、最先端のモデルとは異なり、構造を持った音楽やステレオ音響を生成することが可能です。
本論文では、大規模言語モデル(LLM)の分散デプロイメントにおけるモデル推論レイテンシを低減する新規手法を提案する。我々の貢献は、テンソル並列(TP)と併用した際の最先端量子化カーネルの現状の制約に対処する最適化された推論デプロイメントスキームである。本手法は、GPUメモリアクセスパターンにおけるデータ局所性を維持し、TPの事前知識を活用してグローバル通信を削減する。A100およびH100 NVIDIA DGXシステム上で、様々なTP設定において、Llama-70Bでは既存手法に対して最大1.81倍、IBM WatsonXのGranite-20B MLP層問題サイズでは最大1.78倍の高速化を実証した。
N:M構造化スパース性は、比較的少ないオーバーヘッドと効率の向上により、大きな関心を集めています。さらに、この形式のスパース性は、その控えめな表現オーバーヘッドにより、メモリフットプリントを削減する点でも非常に魅力的です。N:M構造化スパース性のためのトレーニング手法の開発が進められてきましたが、それらは主に低スパース性領域(約50%以下)に焦点を当てています。しかしながら、これらのアプローチでトレーニングされたモデルの性能は、高スパース性領域(>80%)に直面すると低下する傾向があります。本研究では、既存のスパーストレーニング手法が高スパース性領域でどの程度有効であるかを調査し、これらの手法が低スパース性領域と同等のモデル品質を維持できないことを指摘します。この差異の主な要因として、勾配の大きさに誘発されるノイズのレベルが高いことを示します。この望ましくない効果を緩和するために、プルーニングされた要素への勾配の流れを段階的に制限する減衰メカニズムを採用します。私たちのアプローチは、高スパース性領域において、視覚モデルと言語モデルの品質をそれぞれ最大2%と5%向上させます。また、モデルの精度とトレーニング計算コスト(FLOPs)のトレードオフを評価します。等しいトレーニングFLOPsにおいて、従来のスパーストレーニング手法と比較して、私たちの手法は最大2%の精度向上を示し、より優れた性能を発揮します。ソースコードは以下で公開されています: https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity