翻訳付きの日次キュレーションされたAI研究論文
我々は、コンピュータビジョン(CV)アプリケーションにおける高スループットを重視した新しいハイブリッドCNN-ViTニューラルネットワークファミリー、FasterViTを設計しました。FasterViTは、CNNの高速な局所表現学習とViTのグローバルモデリング特性の利点を組み合わせています。新たに導入した階層的アテンション(HAT)アプローチは、二次複雑性を持つグローバル自己アテンションを、計算コストを削減したマルチレベルアテンションに分解します。我々は、効率的なウィンドウベースの自己アテンションを活用します。各ウィンドウは、局所およびグローバル表現学習に参加する専用のキャリアトークンにアクセスできます。高レベルでは、グローバル自己アテンションが低コストで効率的なウィンドウ間通信を可能にします。FasterViTは、精度と画像スループットの関係においてSOTAのパレートフロントを達成しました。我々は、分類、物体検出、セグメンテーションを含む様々なCVタスクにおいてその有効性を広範に検証しました。また、HATが既存ネットワークのプラグアンドプレイモジュールとして使用され、それらを強化できることも示しました。さらに、高解像度画像において競合するモデルよりも大幅に高速かつ正確な性能を実証しました。コードはhttps://github.com/NVlabs/FasterViTで公開されています。
広義に解釈すれば、訓練アルゴリズムはすべての深層学習パイプラインにおいて不可欠な要素です。多様なワークロードにおいて訓練を高速化する訓練アルゴリズムの改善(例えば、より優れた更新規則、チューニングプロトコル、学習率スケジュール、またはデータ選択スキーム)は、時間の節約、計算リソースの節約、そしてより優れた、より正確なモデルを導く可能性があります。しかし残念ながら、現状では、訓練アルゴリズムの改善を確実に特定したり、最先端の訓練アルゴリズムを決定したりする能力がコミュニティにはありません。本研究では、具体的な実験を通じて、訓練の高速化における真の進歩には、訓練アルゴリズムの実証的比較が直面する3つの基本的な課題を解決する新しいベンチマークが必要であると主張します。その課題とは、(1) 訓練が完了した時点をどのように決定し、訓練時間を正確に測定するか、(2) 測定値がワークロードの詳細にどのように敏感であるかをどのように扱うか、(3) ハイパーパラメータチューニングを必要とするアルゴリズムをどのように公平に比較するか、です。これらの課題に対処するため、固定ハードウェア上で複数のワークロードを実行する新しい競争的な結果到達時間ベンチマーク、AlgoPerf: Training Algorithmsベンチマークを導入します。このベンチマークには、現在広く使用されている手法よりもワークロードの変化に対してロバストなベンチマーク提出物を検出可能にする一連のワークロードバリアントが含まれています。最後に、現在の実践を代表するさまざまなオプティマイザを使用して構築されたベースライン提出物や、最近の文献で注目を集めている他のオプティマイザを評価します。これらのベースライン結果は、ベンチマークの実現可能性を示し、手法間の非自明なギャップが存在することを示し、将来のベンチマーク提出物が挑戦し、超えるべき暫定的な最先端を設定します。
大規模なテキストから画像への拡散モデルは、テキストプロンプトから写真のようにリアルな画像を生成する際に驚くべき能力を発揮します。これらの強力なモデルを効果的に誘導または制御して、さまざまな下流タスクを実行させる方法は、重要な未解決の問題となっています。この課題に取り組むため、我々はテキストから画像への拡散モデルを下流タスクに適応させるための原理に基づいたファインチューニング手法――直交ファインチューニング(Orthogonal Finetuning, OFT)を提案します。既存の手法とは異なり、OFTは単位超球面上のニューロン間の関係を特徴付ける超球面エネルギーを理論的に保存することができます。この特性は、テキストから画像への拡散モデルの意味生成能力を維持する上で重要であることがわかりました。ファインチューニングの安定性を向上させるため、我々はさらに超球面に半径制約を課した制約付き直交ファインチューニング(Constrained Orthogonal Finetuning, COFT)を提案します。具体的には、2つの重要なテキストから画像へのファインチューニングタスクを検討します。1つは、特定の被写体の数枚の画像とテキストプロンプトを与えて被写体固有の画像を生成する被写体駆動生成、もう1つはモデルが追加の制御信号を受け取れるようにする制御可能生成です。我々は、OFTフレームワークが生成品質と収束速度の両面で既存の手法を上回ることを実験的に示します。
既存の大規模言語モデル(LLM)は、入力長の制約により固定サイズの入力しか処理できず、過去の入力から得られる豊富な長文脈情報を活用することができません。この問題を解決するため、我々は長期的な記憶を可能にするフレームワーク「Language Models Augmented with Long-Term Memory(LongMem)」を提案します。このフレームワークでは、元のバックボーンLLMをメモリエンコーダとして凍結し、適応型の残差サイドネットワークをメモリ検索器およびリーダーとして機能させる、新しい分離型ネットワークアーキテクチャを設計しました。この分離型メモリ設計により、長期的な過去の文脈をキャッシュし、更新することが容易になり、メモリの陳腐化に悩まされることなくメモリ検索を行うことができます。メモリ拡張適応トレーニングを強化することで、LongMemは長い過去の文脈を記憶し、長期的な記憶を言語モデリングに活用することが可能になります。提案されたメモリ検索モジュールは、メモリバンク内で無制限の長さの文脈を処理し、さまざまな下流タスクに役立てることができます。特に、LongMemは長文メモリを65,000トークンまで拡張し、多数のデモンストレーション例を長文メモリとしてキャッシュすることで、文脈内学習に活用することができます。実験結果は、我々の手法が挑戦的な長文脈モデリングベンチマークであるChapterBreakにおいて強力な長文脈モデルを上回り、LLMを超えるメモリ拡張文脈内学習の顕著な改善を達成することを示しています。これらの結果は、提案手法が言語モデルが長文コンテンツを記憶し活用するのに効果的であることを実証しています。我々のコードはhttps://aka.ms/LongMemで公開されています。
Face0を紹介します。これは、ファインチューニングやインバージョンといった最適化プロセスを一切必要とせず、サンプル時間内でテキストから画像を生成するモデルを顔に即座に条件付けする新しい手法です。注釈付き画像データセットに含まれる顔の埋め込みを追加し、拡張されたデータセットで画像生成モデルをトレーニングします。一度トレーニングされると、推論時には基盤となるモデルと実質的に同一となり、ユーザーが提供した顔画像とプロンプトを与えるだけで、わずか数秒で画像を生成することができます。本手法は、満足のいく結果を達成し、非常にシンプルで極めて高速であり、基盤となるモデルに新しい機能を提供します。例えば、テキストによる制御や入力顔埋め込みの直接操作を通じて生成画像を制御することが可能です。さらに、ユーザー提供の画像から得た顔埋め込みの代わりに固定のランダムベクトルを使用する場合、本手法は画像間での一貫したキャラクター生成の問題を本質的に解決します。最後に、さらなる研究が必要ではありますが、本手法はモデルのテキスト的バイアスと顔に対するバイアスを分離するものであり、将来のテキストから画像を生成するモデルにおけるバイアスの緩和に向けた一歩となることを期待しています。
Cap3Dを紹介します。これは3Dオブジェクトに対する記述テキストを自動生成するアプローチです。この手法は、画像キャプショニング、画像-テキストアラインメント、および大規模言語モデル(LLM)の事前学習済みモデルを活用し、3Dアセットの複数視点から得られたキャプションを統合します。これにより、手動アノテーションに伴う時間とコストのかかるプロセスを完全に回避します。私たちはCap3Dを最近導入された大規模3DデータセットであるObjaverseに適用し、66万の3D-テキストペアを生成しました。同じデータセットから得られた4万1千件の人間によるアノテーションを用いた評価では、Cap3Dが品質、コスト、速度の面で人間が作成した記述を上回ることを示しています。効果的なプロンプトエンジニアリングを通じて、Cap3DはABOデータセットから収集した1万7千件のアノテーションにおいて、幾何学的記述の生成において人間のパフォーマンスに匹敵します。最後に、Text-to-3DモデルをCap3Dと人間によるキャプションでファインチューニングし、Cap3Dが優れていることを示しました。また、Point-E、Shape-E、DreamFusionなどの最新技術(SOTA)をベンチマークしました。
言語モデルは、画像、音声、音楽などの自然信号をモデル化するために成功裏に使用されてきました。これらのモデルの重要な要素は、高次元の自然信号を低次元の離散トークンに圧縮できる高品質なニューラル圧縮モデルです。この目的のために、44.1 KHzのオーディオを8kbpsの帯域幅でトークンに圧縮し、約90倍の圧縮を実現する高忠実度の汎用ニューラルオーディオ圧縮アルゴリズムを導入します。これを実現するために、高忠実度オーディオ生成の進歩と、画像ドメインからのより優れたベクトル量子化技術、そして改良された敵対的損失および再構成損失を組み合わせました。私たちは、音声、環境音、音楽などすべてのドメインを単一の汎用モデルで圧縮し、すべてのオーディオの生成モデリングに広く適用できるようにしました。競合するオーディオ圧縮アルゴリズムと比較し、私たちの方法がそれらを大幅に上回ることを確認しました。すべての設計選択について徹底的なアブレーションを提供し、オープンソースのコードと訓練済みモデルの重みも公開しています。私たちの研究が、次世代の高忠実度オーディオモデリングの基盤となることを願っています。
我々は、Transformerモデルにおける漸進的学習ダイナミクスを特定した。そこでは、学習済みの重みと初期重みの差が、ランクを徐々に増加させていく。この現象が、対角重み行列と小さな初期化という簡略化された仮定の下で発生することを厳密に証明した。我々の実験はこの理論を支持するとともに、この現象が簡略化された仮定なしでも実際に起こり得ることを示している。
CLIPのような対比的な画像-テキストモデルは、多くの最先端システムの基盤を形成しています。これらのモデルは一般的な汎用概念の認識に優れていますが、事前学習データセットに稀にしか存在しない、あるいは全く含まれていない細粒度のエンティティに対しては依然として苦戦しています。そのため、これらのモデルの成功の鍵となっているのは、事前学習段階で記憶できる概念の範囲を拡大することを目的とした大規模なキュレーションされた事前学習データの使用です。本研究では、細粒度の知識を直接モデルのパラメータにエンコードする代わりに、外部メモリからその知識を検索するようにモデルを訓練するという代替手法を探求します。具体的には、既存の視覚-テキストモデルに、推論時にメモリからクロスモーダルに検索された情報を用いて埋め込みを精緻化する能力を付与することを提案します。これにより、ゼロショット予測が大幅に向上します。注目すべきは、凍結されたCLIPの上に軽量な単層の融合トランスフォーマーを追加するだけでこれが実現できることを示している点です。実験により、検索機能を強化した対比学習(RECO)が、CLIPの性能をいくつかの困難な細粒度タスクで大幅に向上させることが検証されました。例えば、Stanford Carsでは+10.9、CUB-2011では+10.2、最近のOVENベンチマークでは+7.3の改善が見られました。
最先端の情報抽出手法はOCRエラーによって制限されています。これらの手法はフォーム形式の印刷文書では良好に機能しますが、非構造化の手書き文書は依然として課題となっています。既存のモデルをドメイン固有のトレーニングデータに適応させることは非常にコストがかかります。これは主に2つの要因によるものです:1)ドメイン固有の文書(手書きの処方箋や実験ノートなど)の入手可能性が限られていること、2)判読困難な手書き文書画像を解読するためにドメイン固有の知識が必要となるため、アノテーションがさらに困難になることです。本研究では、弱いラベル付けされたデータのみを使用して手書き処方箋から薬品名を抽出するという複雑な問題に焦点を当てます。データは画像とその中に含まれる薬品名のリストで構成されていますが、画像内での位置情報は含まれていません。この問題を解決するために、まず弱いラベルから関心領域(薬品行)を特定し、次に合成生成データのみを使用して学習したドメイン固有の薬品言語モデルを注入します。市販の最先端手法と比較して、本アプローチは処方箋からの薬品名抽出において2.5倍以上の性能向上を示しました。