翻訳付きの日次キュレーションされたAI研究論文
本論文は、GPT、LLaMA、OPT、BLOOMなどのモデルを含むトランスフォーマーデコーダーに固有の新たな線形特性を明らかにする。我々は連続する層間の埋め込み変換を分析し、ほぼ完璧な線形関係(Procrustes類似度スコア0.99)を発見した。しかし、トランスフォーマー層の出力ノルムが一貫して低いため、残差成分を除去すると線形性が低下する。実験では、トランスフォーマーの最も線形性の高いブロックを除去または線形近似しても、損失やモデルの性能に大きな影響がないことが示された。さらに、小規模モデルでの事前学習実験では、層の線形性を低減することを目的としたコサイン類似度ベースの正則化を導入した。この正則化により、Tiny StoriesやSuperGLUEなどのベンチマークで性能指標が向上し、モデルの線形性の低減にも成功した。本研究は、トランスフォーマーアーキテクチャの従来の理解に疑問を投げかけ、その動作がこれまで考えられていたよりも線形的である可能性を示唆している。
キー・バリュー(KV)キャッシングは、トランスフォーマーベースの自己回帰型大規模言語モデル(LLM)のデコードを加速する上で重要な役割を果たします。しかし、長いシーケンス長や大きなバッチサイズでは、KVキャッシュを保存するために必要なメモリ量が過大になる可能性があります。トランスフォーマーの発明以来、KVキャッシュのサイズを削減するために発見された最も効果的な手法の2つは、マルチクエリ注意機構(MQA)とその一般化であるグループ化クエリ注意機構(GQA)です。MQAとGQAはどちらも、複数のクエリヘッドが単一のキー/バリューヘッドを共有できるように注意ブロックの設計を変更し、精度を最小限に低下させながら、異なるキー/バリューヘッドの数を大幅に削減します。本論文では、マルチクエリ注意機構をさらに進化させ、隣接する層間でキーとバリューヘッドを共有することで、新たな注意設計である「クロスレイヤー注意機構(CLA)」を提案します。CLAを用いることで、KVキャッシュのサイズをさらに2倍削減しつつ、未修正のMQAとほぼ同等の精度を維持できることがわかりました。1Bおよび3Bパラメータのモデルをゼロからトレーニングする実験では、CLAが従来のMQAで可能なメモリ/精度のトレードオフをパレート改善し、より長いシーケンス長と大きなバッチサイズでの推論を可能にすることが示されました。
ワールドモデルは、安全かつサンプル効率の良い方法で強化学習エージェントを訓練するための有望なアプローチです。最近のワールドモデルは、環境のダイナミクスをモデル化するために、主に離散的な潜在変数のシーケンス上で動作します。しかし、このコンパクトな離散表現への圧縮は、強化学習にとって重要な視覚的詳細を無視する可能性があります。同時に、拡散モデルは画像生成における主要なアプローチとなり、離散潜在変数をモデル化する確立された手法に挑戦しています。このパラダイムシフトに動機付けられ、我々はDIAMOND(DIffusion As a Model Of eNvironment Dreams)を紹介します。これは、拡散ワールドモデル内で訓練された強化学習エージェントです。我々は、拡散をワールドモデリングに適したものにするために必要な主要な設計選択を分析し、改善された視覚的詳細がエージェントのパフォーマンス向上につながることを示します。DIAMONDは、競争力のあるAtari 100kベンチマークで1.46の平均人間正規化スコアを達成しました。これは、ワールドモデル内で完全に訓練されたエージェントにとっての新たな最高記録です。拡散を用いたワールドモデリングの将来の研究を促進するため、我々はコード、エージェント、およびプレイ可能なワールドモデルをhttps://github.com/eloialonso/diamondで公開しています。
現在の顔再現およびスワッピング手法は主にGANフレームワークに依存していますが、最近ではその優れた生成能力から事前学習済み拡散モデルに焦点が移っています。しかし、これらのモデルの学習はリソースを大量に消費し、結果もまだ満足のいく性能レベルに達していません。この問題を解決するため、我々は事前学習済み拡散モデル向けの高精度かつ高忠実度な顔編集を実現する効率的で効果的なアダプターであるFace-Adapterを提案します。顔再現/スワッピングタスクは本質的に、ターゲット構造、ID、属性の組み合わせであることを観察しました。我々はこれらの要素の制御を十分に分離し、一つのモデルで両タスクを達成することを目指しています。具体的には、我々の手法は以下の要素を含みます:1) 正確なランドマークと背景を提供する空間条件生成器、2) トランスフォーマーデコーダーによって顔埋め込みをテキスト空間に変換するプラグアンドプレイIDエンコーダー、3) 空間条件と詳細な属性を統合する属性コントローラー。Face-Adapterは、完全にファインチューニングされた顔再現/スワッピングモデルと比較して、モーション制御精度、ID保持能力、生成品質において同等またはそれ以上の性能を達成します。さらに、Face-Adapterは様々なStableDiffusionモデルとシームレスに統合されます。
画像マッチング分野では、新しい学習可能な特徴マッチング技術が次々と登場し、従来のベンチマークにおける性能が着実に向上しています。しかし、私たちの調査によると、これらの進歩にもかかわらず、現実世界のアプリケーションへの適用可能性は、新しい画像ドメインへの汎化能力の限界によって制約されています。本論文では、汎化を中核原則として設計された初の学習可能な画像マッチャーであるOmniGlueを紹介します。OmniGlueは、視覚基盤モデルからの広範な知識を活用して特徴マッチングプロセスを導き、トレーニング時に見られなかったドメインへの汎化を促進します。さらに、空間情報と外観情報を分離することで、マッチング記述子を強化する新しいキーポイント位置誘導型アテンションメカニズムを提案します。シーンレベル、オブジェクト中心、航空画像など、多様な画像ドメインを含む7つのデータセットで包括的な実験を行いました。OmniGlueの新しいコンポーネントにより、直接比較可能な参照モデルに対して未見のドメインで20.9%の相対的な向上を達成し、最近のLightGlueメソッドよりも9.5%優れた性能を示しました。コードとモデルはhttps://hwjiang1510.github.io/OmniGlueで公開されています。
テキストから画像への拡散モデルを用いた効率的な概念駆動生成のため、パーソナライズド残差と局所化されたアテンション誘導サンプリングを提案します。本手法ではまず、事前学習済みのテキスト条件付き拡散モデルの重みを凍結し、モデルの層の一部に対して低ランクの残差を学習することで概念を表現します。この残差ベースのアプローチにより、提案するサンプリング手法を直接適用可能となります。このサンプリング手法では、クロスアテンションを通じて概念が局在する領域にのみ学習済み残差を適用し、それ以外の領域では元の拡散モデルの重みを使用します。これにより、局所化サンプリングは学習された概念の同一性と、基盤となる拡散モデルの既存の生成事前分布を組み合わせることができます。パーソナライズド残差は、正則化画像を使用せず、従来のモデルよりも少ないパラメータで、単一GPU上で約3分間で概念の同一性を効果的に捉えることを示します。また、局所化サンプリングにより、画像の大部分に対して元のモデルを強力な事前分布として使用することが可能となります。