翻訳付きの日次キュレーションされたAI研究論文
Transformerは深層学習の言語モデリングにおける成功の主要なアーキテクチャとなってきたが、Mambaなどの状態空間モデル(SSM)が最近、小規模から中規模のスケールにおいてTransformerに匹敵するかそれ以上の性能を示すことが明らかになっている。本論文では、これらのモデル群が実際には非常に密接に関連していることを示し、構造化された半可分行列のよく研究されたクラスを様々に分解することで、SSMと注意機構の変種との間に豊かな理論的関係の枠組みを構築する。我々の状態空間双対性(SSD)フレームワークにより、Mambaの選択的SSMを改良したコア層を持つ新しいアーキテクチャ(Mamba-2)を設計することが可能となった。このアーキテクチャは2~8倍高速でありながら、言語モデリングにおいてTransformerと引き続き競争力を持ち続けている。
人工汎用知能の探求において、マルチモーダル大規模言語モデル(MLLMs)は近年の進歩の焦点として浮上している。しかし、その主な焦点は依然として静的な画像理解能力の開発に留まっている。MLLMsが連続的な視覚データを処理する可能性はまだ十分に探求されておらず、その性能を包括的かつ高品質に評価する枠組みが欠如している。本論文では、ビデオ分析におけるMLLMsの初のフルスペクトラムなマルチモーダル評価ベンチマークであるVideo-MMEを紹介する。我々の研究は、以下の4つの主要な特徴により既存のベンチマークと区別される:1)ビデオタイプの多様性、6つの主要な視覚領域と30のサブフィールドにわたる広範なシナリオ一般化を確保;2)時間次元における持続時間、11秒から1時間までの短期、中期、長期のビデオを含む堅牢な文脈ダイナミクス;3)データモダリティの広がり、ビデオフレームに加えて字幕や音声などのマルチモーダル入力を統合し、MLLMsの全方位の能力を明らかにする;4)アノテーションの品質、専門のアノテーターによる厳密な手動ラベリングを活用し、正確で信頼性の高いモデル評価を促進する。900本のビデオ、合計256時間分が手動で選定され、全てのビデオコンテンツを繰り返し視聴することで2,700の質問-回答ペアが生成された。Video-MMEを用いて、GPT-4シリーズやGemini 1.5 Proなどの最先端のMLLMs、およびInternVL-Chat-V1.5やLLaVA-NeXT-Videoなどのオープンソースの画像モデルやビデオモデルを広範に評価した。我々の実験により、Gemini 1.5 Proが最も優れた商用モデルであり、オープンソースモデルを大幅に上回ることが明らかになった。我々のデータセットとこれらの発見は、より長いシーケンスとマルチモーダルデータの処理におけるさらなる改善の必要性を強調している。プロジェクトページ:https://video-mme.github.io
本研究では、小規模な言語モデルが大規模テキストデータセットの高品質なサブセットを決定し、より大規模な言語モデルの性能を向上させることが可能かどうかを調査します。既存の研究では、大規模モデルのパープレキシティに基づくプルーニングが高品質なデータを生み出すことが示されていますが、本研究では、小規模モデルをパープレキシティベースのプルーニングに使用できるかどうか、およびプルーニングがデータのドメイン構成にどのように影響されるかを調査します。複数のデータセット構成において、事前学習データのパープレキシティベースのプルーニングが下流タスクの性能を大幅に向上させることが実証されました:1億2500万パラメータのモデルで計算されたパープレキシティに基づくプルーニングにより、30億パラメータのモデルの下流タスクにおける平均性能が最大2.04向上し、同等のベースライン性能に到達するための事前学習ステップが最大1.45倍削減されました。さらに、このようなパープレキシティベースのデータプルーニングは、過学習状態やデータ制約下においても下流タスクの性能向上をもたらすことが示されました。
拡散モデルは、テキスト記述から高品質な画像を生成する強力なツールとして登場しました。しかし、これらのモデルは、特に高い分類器不要ガイダンス重みでサンプリングする場合、生成される画像の多様性が限られることがよくあります。この問題に対処するため、我々はKaleidoを提案します。これは、自己回帰的な潜在事前分布を組み込むことでサンプルの多様性を向上させる新しいアプローチです。Kaleidoは、元のキャプションをエンコードし、潜在変数を生成する自己回帰言語モデルを統合します。これらの潜在変数は、画像生成プロセスをガイドし促進するための抽象的で中間的な表現として機能します。本論文では、テキスト記述、検出バウンディングボックス、オブジェクトブロブ、視覚的トークンなど、さまざまな離散潜在表現を探求します。これらの表現は、拡散モデルへの入力条件を多様化し豊かにし、より多様な出力を可能にします。実験結果は、Kaleidoが与えられたテキスト記述から生成される画像サンプルの多様性を効果的に広げながら、高い画像品質を維持することを示しています。さらに、Kaleidoが生成された潜在変数によって提供されるガイダンスに密接に従い、画像生成プロセスを効果的に制御および指示する能力を示しています。
現在の4D生成手法は、高度な拡散生成モデルの助けを借りて注目すべき効果を達成しています。しかし、これらの手法はマルチビューの時空間モデリングを欠いており、複数の拡散モデルから得られる多様な事前知識を統合する際に課題に直面し、時間的な外観の不整合やちらつきが生じています。本論文では、モノクロ動画から時空間的に一貫した4Dコンテンツを生成することを目的とした新しい4D生成パイプライン、すなわち4Diffusionを提案します。まず、凍結された3D認識拡散モデルに学習可能なモーションモジュールを組み込むことで、マルチビューの時空間相関を捉えるための統一された拡散モデルを設計します。選別されたデータセットで訓練した後、この拡散モデルは合理的な時間的一貫性を獲得し、3D認識拡散モデルの汎用性と空間的一貫性を本質的に保持します。その後、動的NeRFによってパラメータ化された4D表現を最適化するために、マルチビュー動画拡散モデルに基づく4D認識スコア蒸留サンプリング損失を提案します。これにより、複数の拡散モデルから生じる不一致を排除し、時空間的に一貫した4Dコンテンツの生成を可能にします。さらに、外観の詳細を強化し、動的NeRFの学習を促進するためのアンカー損失を考案します。広範な定性的および定量的な実験により、我々の手法が従来の手法と比較して優れた性能を達成することが実証されています。
第二階最適化手法は、プレコンディショナーと呼ばれる行列を保持するため、理論的にも実践的にも第一階最適化手法を凌駕しています。しかし、プレコンディショナーとその逆平方根を形成する状態量は、第二階最適化手法で訓練可能なモデルの最大サイズを制限します。この問題に対処するため、32ビットの最適化状態量を低ビット幅に圧縮することでメモリ使用量を削減する手法が有望視されています。しかし、現在のアプローチは第一階最適化手法に限定されています。本論文では、4ビットShampooを例とした初の4ビット第二階最適化手法を提案し、32ビット版と同等の性能を維持します。理論的にも実験的にも、プレコンディショナー自体を量子化するよりも、4ビットShampooにおけるプレコンディショナーの固有ベクトル行列を量子化する方が著しく優れていることを示します。量子化された固有ベクトル行列の直交性を補正することで、プレコンディショナーの固有ベクトル行列の近似精度を向上させ、その逆4乗根の計算にも寄与します。さらに、第二階最適化手法の状態量を量子化する際、線形二乗量子化が動的木量子化をわずかに上回ることを発見しました。画像分類のための様々なネットワークでの評価により、我々の4ビットShampooが32ビット版と同等のテスト精度を達成しつつ、よりメモリ効率が高いことが実証されました。ソースコードは公開予定です。