翻訳付きの日次キュレーションされたAI研究論文
我々は、新たなハイブリッドTransformer-Mamba mixture-of-experts(MoE)アーキテクチャに基づく新しい基盤大規模言語モデル、Jambaを発表します。具体的には、JambaはTransformer層とMamba層を交互に配置し、両モデルファミリーの利点を享受します。これらの層の一部にMoEを追加することで、モデルの容量を増やしつつ、アクティブなパラメータ使用量を管理可能な範囲に保ちます。この柔軟なアーキテクチャにより、リソースと目的に応じた設定が可能です。我々が実装した特定の設定では、単一の80GB GPUに収まる強力なモデルを実現しました。大規模に構築されたJambaは、従来のTransformerと比較して高いスループットと小さなメモリフットプリントを提供し、同時に標準的な言語モデルベンチマークおよび長文脈評価において最先端の性能を発揮します。特に、このモデルは最大256Kトークンの文脈長においても強力な結果を示します。我々は、Transformer層とMamba層をどのように組み合わせるか、エキスパートをどのように混合するかなど、さまざまなアーキテクチャ上の決定を研究し、そのいくつかが大規模モデリングにおいて重要であることを示します。また、Jambaのトレーニングと評価を通じて明らかになったこれらのアーキテクチャの興味深い特性についても説明し、さらなる探求を促すために、さまざまなアブレーション実行のチェックポイントを公開する予定です。我々は、Jambaの実装の重みを寛容なライセンスの下で公開します。
我々は、コンパクトで汎用性の高いテキスト埋め込みモデル「Gecko」を提案する。Geckoは、大規模言語モデル(LLM)から知識を抽出し、検索モデルに蒸留するという重要なアイデアを活用することで、強力な検索性能を実現している。我々の2段階の蒸留プロセスは、まずLLMを使用して多様な合成ペアデータを生成することから始まる。次に、各クエリに対して候補となるパッセージを検索し、同じLLMを使用してポジティブおよびハードネガティブなパッセージを再ラベル付けすることで、データ品質をさらに向上させる。このアプローチの有効性は、Geckoのコンパクトさによって実証されている。Massive Text Embedding Benchmark(MTEB)において、256次元の埋め込みを持つGeckoは、768次元の埋め込みを持つ既存の全てのエントリを凌駕している。768次元の埋め込みを持つGeckoは、平均スコア66.31を達成し、7倍大きいモデルや5倍高い次元の埋め込みと競合する性能を示している。
大規模言語モデル(LLM)は、スマートアシスタント、テキスト要約、翻訳、モバイル端末におけるマルチモーダリティなど、幅広いタスクに活用されています。しかし、現状のオンデバイスLLM展開手法では推論速度が遅く、ユーザーエクスペリエンスの低下を招いています。デバイスGPU上での高効率なLLM展開を実現するため、我々は以下の4つの最適化技術を提案します:(a) 動的形状モデル推論をサポートするシンボリック式ベースのアプローチ、(b) 推論速度の向上と端末のラグ低減のための演算子最適化と実行優先度設定、(c) 逆量子化オーバーヘッドを削減するFP4量子化手法M0E4、(d) LLM推論後のKVキャッシュコピーを不要にするサブテンソルベースの技術。さらに、これらの手法をモバイル推論エンジン「Transformer-Lite」に実装しました。Transformer-Liteは、QualcommとMTKの両プロセッサに対応しています。我々は、2Bから14Bまでの多様なアーキテクチャとパラメータを持つLLMを用いてTransformer-Liteの性能を評価しました。具体的には、ChatGLM2 6Bにおいてプレフィル速度121トークン/秒、デコード速度14トークン/秒を、より小規模なGemma 2Bではプレフィル速度330トークン/秒、デコード速度30トークン/秒を達成しました。CPUベースのFastLLMおよびGPUベースのMLC-LLMと比較して、我々のエンジンはプレフィル速度で10倍以上、デコード速度で2~3倍の高速化を実現しています。
参照解決は重要な課題であり、さまざまな種類の文脈を理解し適切に扱うために不可欠である。この文脈には、過去の会話のターンだけでなく、ユーザーの画面上にあるエンティティやバックグラウンドで動作しているエンティティなど、非会話的なエンティティに関連する文脈も含まれる。大規模言語モデル(LLM)はさまざまなタスクで非常に強力であることが示されているが、特に非会話的なエンティティに対する参照解決での利用はまだ十分に活用されていない。本論文では、参照解決を言語モデリング問題に変換することで、画面上のエンティティなど、従来はテキストのみのモダリティに還元することが難しい形式のエンティティを含む場合でも、LLMを活用して非常に効果的な参照解決システムを構築する方法を示す。既存の類似機能を持つシステムと比較して、さまざまな種類の参照に対して大幅な改善を示し、最小のモデルでも画面上の参照に対して5%以上の絶対的な性能向上を達成した。また、GPT-3.5およびGPT-4とのベンチマークを行い、最小のモデルがGPT-4に匹敵する性能を達成し、より大規模なモデルではGPT-4を大幅に上回る結果を示した。
新規視点合成(NVS)は3Dコンピュータビジョンにおいて大きな進展を遂げてきたが、通常、密な視点からのカメラの内部パラメータと外部パラメータの初期推定を必要とします。この前処理は通常、Structure-from-Motion(SfM)パイプラインを通じて行われますが、この手順は遅く、信頼性が低い場合があり、特にマッチングされた特徴が不足している疎視点シナリオでは正確な再構築が困難です。本研究では、点ベース表現(例:3D Gaussian Splatting, 3D-GS)の強みとエンドツーエンドの密ステレオモデル(DUSt3R)を統合し、ポーズフリーおよび疎視点の課題を含む制約のない設定下でのNVSにおける複雑で未解決の問題に取り組みます。我々のフレームワーク、InstantSplatは、密ステレオ事前情報と3D-GSを統合し、疎視点かつポーズフリーの画像から大規模シーンの3Dガウシアンを1分未満で構築します。具体的には、InstantSplatは、事前に訓練された密ステレオパイプラインから得られたグローバルに整列された3Dポイントマップを利用して、すべての訓練視点における初期シーン構造とカメラパラメータを迅速に確立するCoarse Geometric Initialization(CGI)モジュールを含みます。これに続いて、Fast 3D-Gaussian Optimization(F-3DGO)モジュールが、3Dガウシアンの属性と初期化されたポーズをポーズ正則化とともに共同で最適化します。大規模な屋外データセットTanks & Templesで実施された実験により、InstantSplatはSSIMを32%向上させると同時に、Absolute Trajectory Error(ATE)を80%削減することが示されました。これにより、InstantSplatはポーズフリーおよび疎視点条件を含むシナリオにおける有効なソリューションとして確立されました。プロジェクトページ:instantsplat.github.io。
本論文は、Vision Language Models(VLMs)に対する新たで重要な課題として、Unsolvable Problem Detection(UPD)を提案する。UPDは、Visual Question Answering(VQA)タスクにおいて、解決不可能な問題に直面した際に回答を控えるVLMの能力を検証するものである。UPDは、Absent Answer Detection(AAD)、Incompatible Answer Set Detection(IASD)、Incompatible Visual Question Detection(IVQD)という3つの異なる設定を含む。UPD問題を深く調査するため、広範な実験を行った結果、GPT-4VやLLaVA-Next-34Bを含むほとんどのVLMが、我々のベンチマークに対して様々な程度で苦戦することが明らかとなり、改善の余地が大きいことが示された。UPDに対処するため、トレーニング不要のソリューションとトレーニングベースのソリューションの両方を探り、それらの有効性と限界について新たな洞察を提供する。我々の洞察が、提案されたUPD設定における今後の取り組みと共に、より実用的で信頼性の高いVLMの理解と開発を促進することを期待する。
言語モデルが訓練データの全文を記憶し再生するために使用する重みとメカニズムを局所化することは可能か?本論文では、記憶が複数の層とモデルコンポーネントに分散している一方で、記憶された段落の勾配は非記憶例の勾配とは異なる空間パターンを示し、特に下位層で大きくなることを示す。さらに、記憶された例は、高勾配の重みのみをファインチューニングすることで「忘却」させることができる。我々は、段落の記憶に特に深く関与している低層のアテンションヘッドを特定した。このヘッドは、コーパスレベルのユニグラム分布において最も頻度の低い特徴的なレアトークンに主に注意を向けている。次に、プレフィックスのトークンを摂動させ、デコーディングに生じる変化を測定することで、記憶がトークン間でどの程度局所化されているかを調査した。プレフィックスの初期に現れる少数の特徴的なトークンが、しばしば続く部分全体を破壊する可能性がある。全体として、記憶された続きは、非記憶例に比べて忘却が難しいだけでなく、破壊することも困難である。
Transformerの計算負荷を軽減する取り組みとして、線形アテンションに関する研究が大きな勢いを得ています。しかし、アテンションメカニズムの改善戦略は通常、大規模な再学習を必要とし、膨大なパラメータを持つ大規模言語モデルでは非現実的です。本論文では、事前学習済みの標準Transformerを、わずかな学習コストで線形計算量モデルに変換可能にする、新しい周波数領域カーネル化手法「DiJiang」を提案します。重み付き準モンテカルロ法を用いたサンプリングにより、提案手法は理論的に優れた近似効率を提供します。さらに、学習の計算複雑性を低減するため、離散コサイン変換(DCT)操作に基づくカーネル化を採用しています。大規模な実験により、提案手法は元のTransformerと同等の性能を達成しつつ、学習コストを大幅に削減し、推論速度を大幅に向上させることが実証されました。我々のDiJiang-7Bは、様々なベンチマークにおいてLLaMA2-7Bと同等の性能を発揮しつつ、学習コストは約1/50しか必要としません。コードはhttps://github.com/YuchuanTian/DiJiangで公開されています。
深層学習の最近の進歩は、主にTransformerに依存しており、そのデータ依存性と大規模学習能力が理由です。しかし、これらのアーキテクチャにおけるアテンションモジュールは、入力サイズに対して二次的な時間と空間を要するため、長系列モデリングにおけるスケーラビリティが制限されています。画像や多変量時系列データなどの多次元データに対して効率的で効果的なアーキテクチャバックボーンを設計する最近の試みにもかかわらず、既存のモデルはデータに依存しないか、次元間および次元内の通信を許可できていません。最近、状態空間モデル(SSMs)、特に選択的状態空間モデルが、効率的なハードウェア対応の実装により、長系列モデリングにおいて有望な可能性を示しています。SSMsの成功に触発され、我々はMambaMixerを提案します。これは、トークンとチャネルにわたるデュアル選択メカニズムを使用するデータ依存の重みを持つ新しいアーキテクチャで、選択的トークンとチャネルミキサーと呼ばれます。MambaMixerは、重み付き平均メカニズムを使用して選択的ミキサーを接続し、レイヤーが早期の特徴に直接アクセスできるようにします。概念実証として、MambaMixerブロックに基づいてVision MambaMixer(ViM2)とTime Series MambaMixer(TSM2)アーキテクチャを設計し、さまざまな視覚および時系列予測タスクにおける性能を探ります。我々の結果は、トークンとチャネルの両方にわたる選択的ミキシングの重要性を強調しています。ImageNet分類、物体検出、セマンティックセグメンテーションタスクにおいて、ViM2は確立された視覚モデルと競争力のある性能を達成し、SSMベースの視覚モデルを上回ります。時系列予測において、TSM2は最先端の方法と比較して優れた性能を達成し、計算コストの大幅な改善を示します。これらの結果は、Transformer、クロスチャネルアテンション、およびMLPが時系列予測において良好な性能を達成するのに十分であるが、いずれも必要ではないことを示しています。
触覚と視覚は互いに補完し合い、世界を理解する能力を高めます。研究の観点から見ると、触覚と視覚を組み合わせる問題は十分に探求されておらず、興味深い課題を提示しています。この目的のために、我々はTactile-Informed 3DGSを提案します。これは、触覚データ(局所深度マップ)と多視点視覚データを組み合わせて、表面再構成と新規視点合成を実現する新しいアプローチです。本手法では、接触点における物体の幾何学を正確にモデル化するために3Dガウシアンプリミティブを最適化します。触覚位置での透過率を低下させるフレームワークを作成することで、均一に滑らかな深度マップを保証し、洗練された表面再構成を実現します。触覚は、非ランバート物体(例えば光沢のある表面や反射面)を考慮する際に特に有用です。なぜなら、現代の手法では鏡面ハイライトを忠実に再構成することが困難だからです。視覚と触覚センシングを組み合わせることで、従来の手法よりも少ない画像数でより正確な幾何学再構成を実現します。我々は、光沢のある表面や反射面を持つ物体に対して評価を行い、本手法の有効性を実証し、再構成品質の大幅な向上を示します。