翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の最近の人気に続き、視覚領域への拡張がいくつか試みられています。不慣れな環境を案内する視覚アシスタントから、高レベルのテキスト記述のみを使用して画像を生成する生成モデルまで、視覚言語モデル(VLM)の応用は、私たちとテクノロジーの関係に大きな影響を与えるでしょう。しかし、これらのモデルの信頼性を向上させるためには、多くの課題に対処する必要があります。言語は離散的であるのに対し、視覚ははるかに高次元の空間で進化し、概念を常に簡単に離散化できるとは限りません。視覚と言語のマッピングの背後にあるメカニズムをよりよく理解するために、このVLMの入門を紹介します。これは、この分野に参入したいと考えている人々の助けになることを願っています。まず、VLMとは何か、どのように機能するか、そしてどのように訓練するかを紹介します。次に、VLMを評価するためのアプローチを提示し、議論します。この研究は主に画像と言語のマッピングに焦点を当てていますが、VLMをビデオに拡張することについても議論します。
Transformerが算術タスクで低い性能を示す主な原因は、多数の桁の中での各数字の正確な位置を把握できないことにあるようです。この問題を解決するため、各数字にその数字が数値の先頭からどれだけ離れているかをエンコードする埋め込みを追加しました。この埋め込み自体が性能向上に寄与するだけでなく、この修正により入力注入や再帰層といったアーキテクチャの変更がさらなる性能向上をもたらすことも示しました。 位置情報が解決されたことで、Transformerの論理的外挿能力を研究することができます。彼らは、訓練データよりも大きく複雑な算術問題を解くことができるのでしょうか?わずか1日間の単一GPUでの20桁の数値に対する訓練で、100桁の加算問題において99%の精度を達成し、最先端の性能に到達できることがわかりました。最後に、この数値処理能力の向上が、ソートや乗算といった他の多段階推論タスクの改善も可能にすることを示しました。
LLaVAなどの大規模マルチモーダルモデル(LMM)は、視覚と言語の推論において優れた性能を示しています。これらのモデルは、まず画像を固定数のビジュアルトークンに埋め込み、その後それらを大規模言語モデル(LLM)に入力します。しかし、この設計は高解像度の画像やビデオなどの密集した視覚シナリオにおいて過剰な数のトークンを生成し、大きな非効率性を引き起こします。トークンのプルーニングやマージ手法は存在するものの、それらは各画像に対して単一の長さの出力を生成し、情報密度と効率性のトレードオフにおける柔軟性を提供しません。マトリョーシカ人形の概念に着想を得て、我々はM3: Matryoshka Multimodal Modelsを提案します。これは、視覚コンテンツを複数の粗から細かい粒度にわたって情報を捉えるネストされたビジュアルトークンのセットとして表現することを学習します。我々のアプローチはLMMに対して以下のような独自の利点を提供します:(1)推論時に各テストインスタンスごとに視覚粒度を明示的に制御できる。例えば、コンテンツの予想される複雑さや単純さに基づいて画像を表現するために使用するトークン数を調整できる。(2)M3は、既存のデータセットに必要な粒度を分析するためのフレームワークを提供し、COCOスタイルのベンチマークでは約9個のビジュアルトークンで576個のトークンを使用した場合と同様の精度が得られることを発見した。(3)我々のアプローチは、サンプルレベルでの性能とビジュアルトークン長の最適なトレードオフを探るための基盤を提供し、調査の結果、オラクルの上限と現在の固定スケール表現との間に大きなギャップが存在することが明らかになった。
本技術レポートでは、Zambaという新たな7B SSM-トランスフォーマーハイブリッドモデルを紹介します。Zambaは、同等規模の主要なオープンウェイトモデルと競合する性能を達成しています。Zambaは、公開されているデータセットから1兆トークンを学習し、この規模において最良の非トランスフォーマーモデルです。Zambaは、Mambaバックボーンと単一の共有アテンションモジュールを組み合わせた独自のアーキテクチャを採用し、最小限のパラメータコストでアテンションの利点を得ています。このアーキテクチャにより、Zambaは同等のトランスフォーマーモデルよりも推論が大幅に高速で、長いシーケンスの生成に必要なメモリも大幅に削減されます。Zambaは2段階で事前学習されています:第1段階は既存のウェブデータセットに基づいており、第2段階は高品質な指示データセットと合成データセットを用いたアニーリングで、学習率の急速な減衰が特徴です。Zambaの重みとすべてのチェックポイントを、第1段階とアニーリング段階の両方を通じてオープンソースとして公開します。
Decoder-onlyの大規模言語モデル(LLM)ベースの埋め込みモデルは、BERTやT5ベースの埋め込みモデルを、密なベクトルベースの検索を含む汎用テキスト埋め込みタスクにおいて上回り始めています。本研究では、LLMを汎用埋め込みモデルとしての性能を大幅に向上させながら、そのシンプルさと再現性を維持するために、様々なアーキテクチャ設計とトレーニング手順を備えたNV-Embedモデルを紹介します。モデルアーキテクチャに関しては、プールされた埋め込みを取得するための潜在注意層を提案し、これにより平均プーリングやLLMの最後の<EOS>トークン埋め込みを使用する場合と比較して、検索および下流タスクの精度が一貫して向上します。表現学習を強化するために、LLMの因果的注意マスクを対照学習中に除去します。モデルトレーニングに関しては、2段階の対照的指示チューニング手法を導入します。まず、検索データセットに対して指示を用いた対照学習を適用し、バッチ内のネガティブ例と精選されたハードネガティブ例を活用します。第2段階では、様々な非検索データセットを指示チューニングに組み込み、非検索タスクの精度を向上させるだけでなく、検索性能も改善します。これらの技術を組み合わせることで、公開されているデータのみを使用した我々のNV-Embedモデルは、Massive Text Embedding Benchmark(MTEB)(2024年5月24日現在)において、検索、再ランキング、分類、クラスタリング、意味的テキスト類似性タスクを含む56のタスクで、69.32という記録的なスコアを達成し、第1位にランクされました。特に、我々のモデルはMTEBベンチマーク(BEIRとも呼ばれる)の15の検索タスクにおいても59.36という最高スコアを獲得しました。モデルは以下のURLでオープンソース化されます:https://huggingface.co/nvidia/NV-Embed-v1。
拡散モデルの驚異的な生成能力は、画像および動画編集の両分野で広範な研究を促してきました。時間次元における追加的な課題に直面する動画編集と比較して、画像編集ではより多様で高品質なアプローチやPhotoshopのような高度なソフトウェアの開発が進んでいます。このギャップを踏まえ、我々は、事前学習済みの画像-動画モデルを用いて単一フレームからの編集を動画全体に伝播させることで、画像編集ツールの適用範囲を動画に拡張する新規で汎用的なソリューションを提案します。我々の手法「I2VEdit」は、編集の程度に応じてソース動画の視覚的および運動的整合性を適応的に保持し、既存手法では完全に達成できないグローバル編集、ローカル編集、中程度の形状変化を効果的に処理します。我々の手法の中核には、2つの主要なプロセスがあります:元の動画と基本的な運動パターンを整合させるための「Coarse Motion Extraction」と、細粒度のアテンションマッチングを用いた精密な調整を行う「Appearance Refinement」です。また、複数の動画クリップにわたる自己回帰生成による品質劣化を軽減するために、スキップ間隔戦略を組み込んでいます。実験結果は、我々のフレームワークが細粒度の動画編集において優れた性能を発揮し、高品質で時間的に一貫した出力を生成できることを実証しています。
単一画像から任意の視点で高品質かつ時空間的に一貫した人間の動画を生成するための新しいアプローチを提案します。本フレームワークは、正確な条件付け注入のためのU-Netと、視点や時間にわたるグローバルな相関を捉えるための拡散トランスフォーマーの強みを組み合わせています。その中核となるのは、視点、時間、空間次元にわたる注意機構を分解するカスケード型4Dトランスフォーマーアーキテクチャであり、4D空間の効率的なモデリングを可能にします。人間の識別情報、カメラパラメータ、時間信号をそれぞれのトランスフォーマーに注入することで、精密な条件付けを実現しています。このモデルを訓練するために、画像、動画、マルチビューデータ、3D/4Dスキャンにまたがる多次元データセットと、多次元トレーニング戦略を構築しました。本アプローチは、複雑な動きや視点の変化に苦戦するGANやUNetベースの拡散モデルに基づく従来手法の限界を克服しています。大規模な実験を通じて、本手法が現実的で一貫性のある自由視点人間動画を合成する能力を実証し、仮想現実やアニメーションなどの分野における高度なマルチメディアアプリケーションへの道を開きます。プロジェクトのウェブサイトはhttps://human4dit.github.ioです。
低ランクアダプタ(LoRA)とその派生技術は、パラメータ効率の良いファインチューニング(PEFT)手法として広く利用されており、完全なモデルのファインチューニング性能に匹敵しつつ、追加パラメータ数を大幅に削減します。これらの追加LoRAパラメータは、適応対象のベースモデルに固有です。ベースモデルが廃止され、新しいモデルに置き換えられる場合、関連するすべてのLoRAモジュールを再トレーニングする必要があります。この再トレーニングには、元のベースモデル用のLoRAをトレーニングするために使用されたデータへのアクセスが必要です。これは特に商用クラウドアプリケーションにおいて問題となります。なぜなら、LoRAモジュールとベースモデルはサービスプロバイダによってホストされており、プロプライエタリなクライアントタスクデータをホストすることが許可されていない場合があるからです。この課題に対処するため、我々はTrans-LoRAを提案します。これは、ベースモデル間でLoRAをロスレスかつほぼデータフリーで転移する新しい手法です。我々のアプローチは、合成データを利用してLoRAモジュールを転移します。大規模言語モデルを使用して、観測されたタスクデータサブセットのデータ生成プロセスを近似する合成データジェネレータを設計します。結果として得られた合成データセットでトレーニングを行うことで、LoRAモジュールを新しいモデルに転移します。我々は、LLamaとGemmaモデルファミリーを使用して、このアプローチの有効性を示します。我々のアプローチは、異なるベースモデルファミリー内およびファミリー間、さらには異なるPEFT手法間においても、幅広いタスクでロスレス(ほとんどの場合改善された)LoRA転移を実現します。
本論文では、ユーザープロンプトを用いたリアルタイムストリーミングビデオ・ツー・ビデオ(V2V)変換を実現する拡散モデル、StreamV2Vを紹介する。従来のV2V手法が限られたフレームをバッチ処理するのに対し、我々は無制限のフレームをサポートするため、ストリーミング方式でフレームを処理することを選択した。StreamV2Vの中核には、現在を過去に関連付ける後方参照の原理がある。これは、過去のフレームからの情報をアーカイブする特徴量バンクを維持することで実現される。入力フレームに対して、StreamV2Vはセルフアテンションを拡張し、バンクされたキーと値を含め、類似した過去の特徴量を直接出力に融合する。特徴量バンクは、保存された特徴量と新しい特徴量を統合することで継続的に更新され、コンパクトでありながら情報量を保つ。StreamV2Vは、画像拡散モデルと微調整なしでシームレスに統合できる適応性と効率性が際立っており、1つのA100 GPUで20 FPSを達成する。これは、FlowVid、CoDeF、Rerender、TokenFlowと比較して、それぞれ15倍、46倍、108倍、158倍高速である。定量的な指標とユーザー調査により、StreamV2Vが時間的一貫性を維持する卓越した能力を確認した。
ビデオ生成に関する研究は近年大きな進歩を遂げ、テキストプロンプトや画像から高品質なビデオを生成することが可能になりました。ビデオ生成プロセスに制御を加えることは今後の重要な目標であり、カメラ軌跡に基づいてビデオ生成モデルを条件付ける最近のアプローチは、その方向に向けた大きな一歩です。しかし、同じシーンを複数の異なるカメラ軌跡から生成することは依然として困難です。このマルチビデオ生成問題の解決策は、編集可能なカメラ軌跡を持つ大規模な3Dシーン生成など、さまざまな応用を可能にするでしょう。我々は、このビジョンに向けた重要な一歩として、協調的ビデオ拡散(Collaborative Video Diffusion, CVD)を提案します。CVDフレームワークには、エピポーラ注意機構を使用して、異なるカメラポーズからレンダリングされた同じビデオの対応するフレーム間の一貫性を促進する新しいクロスビデオ同期モジュールが含まれています。最先端のカメラ制御モジュールを基盤として訓練されたCVDは、ベースラインよりも大幅に優れた一貫性で、異なるカメラ軌跡からレンダリングされた複数のビデオを生成します。これは、広範な実験によって示されています。プロジェクトページ: https://collaborativevideodiffusion.github.io/
近年、拡散モデルの登場により、単一視点からの3次元再構成に新たな可能性が開かれました。しかし、既存の手法はすべて、対象物を構造情報を持たない閉じたメッシュとして表現しており、再構成形状の部品ベースの構造を見落としています。この構造は、多くの下流アプリケーションにとって重要な要素です。さらに、生成されたメッシュは通常、大きなノイズ、滑らかでない表面、ぼやけたテクスチャなどの問題を抱えており、3次元セグメンテーション技術を用いて満足のいく部品セグメントを得ることが困難です。本論文では、単一視点画像からの部品を考慮した3次元再構成のための新しいフレームワークであるPart123を提案します。まず、拡散モデルを使用して与えられた画像から多視点整合性のある画像を生成し、次に任意のオブジェクトに対して強力な汎化能力を示すSegment Anything Model(SAM)を活用して多視点セグメンテーションマスクを生成します。2次元の部品ベースの情報を3次元再構成に効果的に組み込み、不整合を処理するために、ニューラルレンダリングフレームワークにコントラスティブラーニングを導入し、多視点セグメンテーションマスクに基づいて部品を考慮した特徴空間を学習します。また、再構成されたモデルから3次元部品セグメンテーション結果を自動的に導出するためのクラスタリングベースのアルゴリズムも開発しました。実験結果は、我々の手法が様々なオブジェクトに対して高品質なセグメント化された部品を持つ3次元モデルを生成できることを示しています。既存の非構造化再構成手法と比較して、我々の手法による部品を考慮した3次元モデルは、特徴保存再構成、プリミティブフィッティング、3次元形状編集などの重要なアプリケーションに有益です。
拡散モデルは複雑な分布を学習できる一方で、サンプリングには計算コストの高い反復プロセスが必要です。既存の蒸留手法は効率的なサンプリングを可能にしますが、サンプリングステップ数が非常に少ない場合の性能低下、学習データへの依存、または分布全体を捉えられない可能性のあるモード探索型の最適化など、顕著な制限があります。本研究では、拡散モデルを1ステップの生成モデルに最小限の知覚品質の損失で蒸留する、最尤推定に基づくEM蒸留(EMD)を提案します。本手法は、期待値最大化法(EM)の観点から導出され、拡散教師の事前分布と推論された生成モデルの潜在変数の結合分布からのサンプルを用いて生成モデルのパラメータを更新します。蒸留プロセスを安定化させるために、再パラメータ化されたサンプリングスキームとノイズキャンセレーション技術を開発しました。さらに、本手法と既存のモード探索型KL最小化手法との興味深い関連性を明らかにします。EMDは、ImageNet-64およびImageNet-128におけるFIDスコアにおいて、既存の1ステップ生成手法を上回り、テキストから画像への拡散モデルの蒸留に関する先行研究と比較しても良好な結果を示しています。
ビデオ生成モデルは、現実的で想像力豊かなフレームを生成する能力から特に注目を集めています。さらに、これらのモデルは強力な3D一貫性を示すことが観察されており、世界シミュレータとしての潜在能力を大幅に高めています。本研究では、Vidu4Dという新しい再構成モデルを提案します。Vidu4Dは、単一の生成ビデオから4D(すなわち、連続的な3D)表現を正確に再構成するのに優れており、非剛性やフレームの歪みに関連する課題に対処します。この能力は、空間的および時間的整合性を維持する高忠実度の仮想コンテンツを作成するために極めて重要です。Vidu4Dの中核には、提案するDynamic Gaussian Surfels(DGS)技術があります。DGSは、時間的に変化するワーピング関数を最適化し、Gaussian surfels(表面要素)を静的状態から動的に歪んだ状態に変換します。この変換により、時間経過に伴う動きと変形を正確に描写することが可能になります。表面に整列したGaussian surfelsの構造的整合性を保つために、連続的なワーピング場に基づいて歪んだ状態の幾何学的正則化を設計し、法線を推定します。さらに、Gaussian surfelsの回転およびスケーリングパラメータの改良を学習することで、ワーピングプロセス中のテクスチャのちらつきを大幅に軽減し、微細な外観の詳細をより良く捉えます。Vidu4Dには、DGSのワーピング場に適切な開始点を提供する新しい初期化状態も含まれています。既存のビデオ生成モデルをVidu4Dに組み込むことで、全体のフレームワークは、外観と幾何学の両方において高忠実度のテキストから4Dへの生成を示します。
深層学習モデルの良好な初期化は、それらがより良く、より速く収束するのを助けるため、極めて重要です。しかし、大規模モデルの事前学習は多くの研究者にとって手の届かないものであり、初期パラメータの望ましい予測が今や一層必要とされています。モデルパラメータを予測するアプローチの一つであるGraph HyperNetworks(GHNs)は、最近、大規模な視覚モデルの初期化において強力な性能を示しています。残念ながら、非常に幅広いネットワークのパラメータを予測するには、小さなパラメータの塊を複数回コピーする必要があり、完全な予測をサポートするために極めて多くのパラメータが必要となるため、その実用化が大きく妨げられています。この制限に対処するため、我々はLoGAH(Low-rank GrAph Hypernetworks)を提案します。これは、低ランクのパラメータデコーダを備えたGHNであり、以前の試みほど過剰なパラメータの増加を必要とせずに、大幅に幅広いネットワークに拡張することができます。LoGAHにより、7億7400万の大規模ニューラルネットワークのパラメータをメモリ効率の良い方法で予測することが可能になります。我々は、LoGAHで初期化された視覚および言語モデル(すなわち、ViTおよびGPT-2)が、ランダムに初期化されたものや既存のハイパーネットワークを使用したものよりも優れた性能を達成することを示します。さらに、小さなデータセットでLoGAHをトレーニングし、予測されたパラメータを使用してより大きなタスクの初期化を行うという、有望な転移学習の結果を示します。我々は、コードをhttps://github.com/Blackzxy/LoGAHで提供しています。
我々は、大規模なピクセルベースの画像拡散モデルを効果的に学習するという長年の課題に取り組み、カスケード型の超解像コンポーネントを必要とせずに、大規模で高解像度のモデルを安定して訓練するための非常にシンプルな貪欲な成長手法を導入します。その鍵となる洞察は、コアコンポーネント、すなわちテキストと画像の整合性を担う部分と高解像度レンダリングを担う部分を慎重に事前訓練することから得られました。まず、ダウンサンプリング(アップサンプリング)エンコーダ(デコーダ)を持たない「Shallow UNet」をスケーリングすることの利点を実証します。その深層コア層をスケーリングすることで、整合性、オブジェクト構造、構図が改善されることが示されました。このコアモデルを基盤として、事前訓練された表現の整合性を保ちながら、訓練を安定化し、大規模な高解像度データセットの必要性を減らすことで、高解像度のエンドツーエンドモデルにアーキテクチャを成長させる貪欲アルゴリズムを提案します。これにより、超解像カスケードを必要とせずに高解像度画像を生成できる単一段階のモデルが可能になります。我々の主要な結果は公開データセットに基づいており、追加の正則化スキームなしで最大80億パラメータの非カスケードモデルを訓練できることを示しています。内部データセットで訓練され、カスケードなしで1024x1024画像を生成する我々のフルパイプラインモデル「Vermeer」は、SDXLに対して44.0%対21.4%の人間評価者に好まれました。