翻訳付きの日次キュレーションされたAI研究論文
本論文では、OpenAIのChatGPTやGoogleのPaLM-2のようなブラックボックス型の実用言語モデルから、正確で非自明な情報を抽出する初めてのモデル窃取攻撃を紹介する。具体的には、典型的なAPIアクセスを前提として、トランスフォーマーモデルの埋め込み射影層(対称性を除いて)を復元する攻撃を提案する。20ドル未満のコストで、OpenAIのAdaおよびBabbage言語モデルの射影行列全体を抽出することに成功し、これらのブラックボックスモデルの隠れ次元がそれぞれ1024および2048であることを初めて確認した。また、gpt-3.5-turboモデルの正確な隠れ次元サイズも復元し、射影行列全体を復元するためのクエリコストが2000ドル未満であると推定した。最後に、潜在的な防御策と緩和策を提示し、本攻撃を拡張する可能性のある今後の研究の意義について議論する。
大規模言語モデルの最近の進展は、その膨大なパラメータ数に由来する優れた能力により、世界に多大な価値をもたらしています。しかし、現在最高のメモリ容量を持つGPUでさえ、80GBに達する程度であり、確率的勾配降下法に基づく最適化を行う際に、これらの膨大なパラメータとそれに関連するオプティマイザの状態を収容するには全く不十分です。このような巨大なモデルをホストするための一つのアプローチは、多くのGPUのデバイスメモリを集約することです。しかし、このアプローチは、多くのハイエンドGPUサーバーに対して常に限られた予算を持つほとんどの学術研究者にとって、法外なコストを伴います。本論文では、ほとんどのAI研究者がアクセス可能な、一般的なサーバー内の単一の、さらにはローエンドのGPU上での巨大モデルのファインチューニングに焦点を当てます。このようなシナリオでは、最先端の研究であるZeRO-Infinityは、一般的なサーバーで実行する際に2つの深刻な問題に直面します:1)非効率的なスワッピングによる低いGPU利用率、2)CPUメモリ容量によるトレーニング可能なモデルサイズの制限です。その根本的な理由は、ZeRO-InfinityがハイエンドGPUサーバーでの実行に最適化されているためです。この目的のために、我々はFuyouを提案します。これは、ローエンドのサーバーとローエンドのGPU、そして限られたCPUメモリ容量で、効率的に100Bの巨大モデルのファインチューニングを可能にする低コストのトレーニングフレームワークです。その鍵となるアイデアは、SSD-CPU通信を最適化の次元として追加し、計算とデータスワッピングを体系的アプローチから慎重に共最適化することで、GPU利用率を最大化することです。実験結果は、1) FuyouがコンシューマーGPU RTX 4090上で175B GPT-3を高いGPU利用率でファインチューニングできるのに対し、ZeRO-Infinityはファインチューニングに失敗すること、2)小規模なGPT-3 13Bモデルをトレーニングする際、FuyouがRTX 4090 GPU上で156 TFLOPSを達成するのに対し、ZeRO-Infinityは45 TFLOPSしか達成できないことを示しています。
ビデオ理解における局所的な冗長性とグローバルな依存関係という二重の課題に対処するため、本研究ではMambaをビデオ領域に革新的に適応させました。提案されたVideoMambaは、既存の3D畳み込みニューラルネットワークやビデオトランスフォーマーの限界を克服します。その線形複雑性の演算子により、高解像度の長尺ビデオ理解に不可欠な効率的な長期モデリングが可能となります。広範な評価により、VideoMambaの4つの核心的な能力が明らかになりました:(1) 新しい自己蒸留技術により、大規模なデータセット事前学習なしで視覚領域でのスケーラビリティを実現;(2) 微細な動作の違いがあっても短期間のアクションを認識する感度;(3) 従来の特徴ベースのモデルを大幅に上回る長期ビデオ理解の優位性;(4) 他のモダリティとの互換性を示し、マルチモーダルコンテキストでの堅牢性を実証。これらの明確な利点を通じて、VideoMambaはビデオ理解の新たなベンチマークを設定し、包括的なビデオ理解のためのスケーラブルで効率的なソリューションを提供します。すべてのコードとモデルはhttps://github.com/OpenGVLab/VideoMambaで公開されています。
自動3D生成は最近広く注目を集めている。最近の手法は生成速度を大幅に向上させたが、モデルの容量や3Dデータの制限により、通常は詳細に欠けるオブジェクトを生成する。ビデオ拡散モデルの最近の進展に触発され、我々はV3Dを導入し、事前学習済みのビデオ拡散モデルの世界シミュレーション能力を活用して3D生成を促進する。ビデオ拡散が3D世界を認識する潜在能力を最大限に引き出すために、幾何学的整合性の事前知識を導入し、ビデオ拡散モデルをマルチビュー整合性のある3D生成器に拡張する。これにより、最先端のビデオ拡散モデルを微調整して、単一の画像から物体を囲む360度軌道フレームを生成することが可能となる。我々の特化した再構築パイプラインにより、3分以内に高品質のメッシュまたは3Dガウシアンを生成できる。さらに、本手法はシーンレベルの新規視点合成に拡張可能であり、疎な入力ビューでカメラパスを精密に制御することを実現する。広範な実験により、提案手法の優れた性能、特に生成品質とマルチビュー整合性の点で、その優位性が実証された。我々のコードはhttps://github.com/heheyas/V3Dで公開されている。
本研究では、大規模視覚言語モデル(LVLM)、特にLLaVA-1.5、QwenVL-Chat、Video-LLaVAなどの著名なモデルにおいて、非効率なアテンション現象を特定しました。これらのモデルの深層において、視覚トークンに対するアテンション計算が極めて非効率であることが判明し、テキストデータ処理と比較してより疎なアプローチが必要であることが示唆されました。これに対処するため、我々はFastVを提案します。FastVは、初期層で適応的なアテンションパターンを学習し、後続層で視覚トークンを刈り込むことで計算効率を最適化する汎用のプラグアンドプレイ手法です。評価の結果、FastVは幅広い画像および映像理解タスクにおいて性能を犠牲にすることなく、計算コストを劇的に削減できることが示されました(例:LLaVA-1.5-13BのFLOPsを45%削減)。FastVの計算効率と性能のトレードオフは高度にカスタマイズ可能であり、パレート効率的です。13BパラメータモデルのFLOPsを7Bパラメータモデルよりも低い予算に圧縮しつつ、優れた性能を維持することができます。我々は、FastVがエッジデバイスや商用モデルにおけるLVLMの展開に実用的な価値を持つと信じています。コードはhttps://github.com/pkunlp-icler/FastVで公開されています。
深層学習の登場以降、言語モデルの事前学習アルゴリズムがどのような速度で進化してきたかを調査した。2012年から2023年にかけてWikitextとPenn Treebankで実施された200以上の言語モデル評価データセットを用いて分析した結果、一定の性能閾値に到達するために必要な計算量が約8ヶ月ごとに半減していることがわかった。95%信頼区間は約5ヶ月から14ヶ月で、ムーアの法則に基づくハードウェアの進化よりも大幅に速いペースである。拡張スケーリング則を推定し、アルゴリズムの進歩を定量化するとともに、モデルのスケーリングと学習アルゴリズムの革新の相対的寄与を明らかにした。トランスフォーマーなどの新しいアーキテクチャの開発やアルゴリズムの急速な進歩にもかかわらず、この期間における全体的な性能向上への寄与は、計算量の増加がさらに大きいことが分析から明らかになった。ベンチマークデータのノイズに制約はあるものの、本分析は言語モデリングの急速な進歩を定量化し、計算量とアルゴリズムの相対的寄与に光を当てている。
Soraの登場は、テキストからビデオを生成する拡散モデルにとって新たな時代の到来を告げるものであり、ビデオ生成とその応用可能性において大きな進展をもたらしました。しかし、Soraや他のテキストからビデオを生成する拡散モデルは、プロンプトに大きく依存しており、テキストからビデオを生成するためのプロンプトを研究した公開データセットは存在しません。本論文では、実ユーザーによる167万件のユニークなテキストからビデオを生成するプロンプトを含む、初の大規模データセットであるVidProMを紹介します。さらに、このデータセットには、4つの最先端の拡散モデルによって生成された669万件のビデオと関連データが含まれています。まず、この大規模データセットの構築が時間とコストを要するプロセスであることを示します。次に、提案するVidProMが、画像生成のための大規模プロンプトギャラリーデータセットであるDiffusionDBとどのように異なるかを示します。これらのプロンプトの分析に基づいて、テキストからビデオを生成するために特別に設計された新しいプロンプトデータセットの必要性を明らかにし、実ユーザーがビデオを作成する際の嗜好について洞察を得ます。私たちの大規模で多様なデータセットは、多くの新たな研究分野を刺激します。例えば、より優れた、効率的で安全なテキストからビデオを生成する拡散モデルを開発するために、テキストからビデオを生成するプロンプトエンジニアリング、効率的なビデオ生成、拡散モデルのためのビデオコピー検出の探求を提案します。収集したデータセットVidProMは、CC-BY-NC 4.0ライセンスの下でGitHubとHugging Faceで公開しています。
拡散モデルは比較的学習が容易ですが、サンプル生成には多くのステップを要します。一方、一貫性モデルは学習がはるかに困難ですが、単一ステップでサンプルを生成します。 本論文では、マルチステップ一貫性モデルを提案します。これは、一貫性モデル(Song et al., 2023)とTRACT(Berthelot et al., 2023)を統合したもので、一貫性モデルと拡散モデルの間を補間することができます。つまり、サンプリング速度とサンプリング品質のトレードオフを実現します。具体的には、1ステップの一貫性モデルは従来の一貫性モデルであり、∞ステップの一貫性モデルは拡散モデルであることを示します。 マルチステップ一貫性モデルは実際に非常に良好に機能します。サンプル生成のステップ数を1ステップから2~8ステップに増やすことで、より高品質なサンプルを生成するモデルを容易に学習でき、サンプリング速度の利点の多くを維持します。注目すべき結果として、一貫性蒸留を用いて、Imagenet 64で8ステップで1.4 FID、Imagenet 128で8ステップで2.1 FIDを達成しました。また、本手法がテキストから画像への拡散モデルにもスケールし、元のモデルと非常に近い品質のサンプルを生成できることも示しました。
主題駆動生成は、テキストから画像への生成をパーソナライズする能力により、最近大きな注目を集めています。従来の研究は、新しい主題の個別の属性を学習することに焦点を当ててきました。しかし、重要な事実として、主題は孤立した新しい概念ではなく、事前学習済みモデル内の特定のカテゴリの特殊化であるべきだという点が十分に重視されていませんでした。これにより、主題がそのカテゴリの属性を包括的に継承できず、属性関連の生成が不十分になるという問題が生じています。本論文では、オブジェクト指向プログラミングに着想を得て、主題をその意味的カテゴリを基底クラスとする派生クラスとしてモデル化します。このモデル化により、主題はカテゴリから公開属性を継承しつつ、ユーザー提供の例から個別の属性を学習することが可能になります。具体的には、プラグアンドプレイ方式の手法であるSubject-Derived regularization (SuDe)を提案します。SuDeは、主題駆動生成された画像が意味的に主題のカテゴリに属するように制約することで、基底-派生クラスのモデル化を構築します。3つのベースラインと2つのバックボーンを用いた様々な主題に対する広範な実験により、SuDeが主題の忠実性を維持しつつ、想像力豊かな属性関連の生成を可能にすることが示されました。コードはまもなくFaceChain (https://github.com/modelscope/facechain)でオープンソース化される予定です。