翻訳付きの日次キュレーションされたAI研究論文
テキスト条件付き動画生成のための、事前学習済み拡散モデルに基づく新しい推論手法を提案する。我々のアプローチであるFIFO-Diffusionは、訓練なしに無限に長い動画を生成することが概念的に可能である。これは、キュー内で連続する一連のフレームを増加するノイズレベルで同時に処理する対角線的ノイズ除去を反復的に行うことで実現される。本手法では、先頭から完全にノイズ除去されたフレームをデキューし、末尾に新しいランダムノイズフレームをエンキューする。しかし、対角線的ノイズ除去は諸刃の剣であり、末尾に近いフレームは前方参照によってクリーンなフレームを活用できる一方で、そのような戦略は訓練と推論の間の不一致を引き起こす。そこで、訓練と推論のギャップを軽減するための潜在分割と、前方参照の利点を活用するための先読みノイズ除去を導入する。既存のテキストから動画生成のベースラインにおいて、提案手法の有望な結果と有効性を実証した。
低ランク適応(Low-rank Adaptation)は、大規模言語モデルのパラメータ効率の良いファインチューニング手法として広く用いられています。本論文では、LoRAで実装されている低ランク更新の影響を分析します。我々の研究結果は、低ランク更新メカニズムがLLMが新しい知識を効果的に学習し記憶する能力を制限する可能性があることを示唆しています。この観察に基づき、我々はMoRAと呼ばれる新しい手法を提案します。MoRAは正方行列を用いて高ランク更新を実現しつつ、学習可能なパラメータ数を維持します。これを実現するため、我々は入力次元を削減し出力次元を増加させるための非パラメータ演算子を導入します。さらに、これらの演算子は重みをLLMにマージ可能にするため、LoRAと同様に我々の手法を展開できます。我々は、指示チューニング、数学的推論、継続的事前学習、記憶、事前学習の5つのタスクにおいて本手法を包括的に評価しました。我々の手法は、記憶集約型タスクにおいてLoRAを上回り、他のタスクでも同等の性能を達成しました。
大規模言語モデル(LLM)がスケーリング則に従って拡大を続ける中、人間のフィードバックによる強化学習(RLHF)はその優れた性能から大きな注目を集めています。しかし、単一モデルの事前学習やファインチューニングとは異なり、大規模言語モデルの訓練におけるRLHFのスケーリングは、4つのモデルにわたる調整の課題を提起します。本論文では、効率的なRLHFスケーリングを可能にするオープンソースフレームワーク「OpenRLHF」を紹介します。既存のRLHFフレームワークが4つのモデルを同じGPU上に配置するのに対し、OpenRLHFはRay、vLLM、DeepSpeedを活用し、70Bパラメータを超えるモデル向けにスケジューリングを再設計し、リソース利用効率の向上と多様な訓練アプローチを実現しています。Hugging Faceとシームレスに統合し、最適化されたアルゴリズムと起動スクリプトを提供することで、ユーザーフレンドリーな即戦力ソリューションを確保しています。OpenRLHFはRLHF、DPO、リジェクトサンプリング、その他のアライメント技術を実装しています。最先端のLLM開発を支援するOpenRLHFのコードは、https://github.com/OpenLLMAI/OpenRLHF で公開されています。
大規模言語モデル(LLM)のパラメータ効率型適応手法が増加する中、これらの訓練済みアダプタを再利用して新たなタスクの性能を向上させることが可能かどうかを検討する必要が生じています。本研究では、マルチタスクデータを基にアダプタのライブラリを構築する最適な方法を探り、そのライブラリを通じたゼロショットおよび教師ありタスク一般化のための技術を考案します。既存のアプローチをベンチマークし、アダプタパラメータの類似性に基づいてタスクをグループ化するモデルベースクラスタリング(MBC)を導入します。これにより、マルチタスクデータセット全体での転移を間接的に最適化します。ライブラリを再利用するために、新しいゼロショットルーティングメカニズム「Arrow」を提案します。Arrowは、再訓練を必要とせずに新しい入力に対して最も関連性の高いアダプタを動的に選択することを可能にします。Phi-2やMistralなどの複数のLLMを用いて、幅広い保留タスクで実験を行い、MBCベースのアダプタとArrowルーティングが新たなタスクへの優れた一般化をもたらすことを検証します。これにより、従来の共同訓練に匹敵またはそれを上回るモジュール化された適応可能なLLMの構築に向けた一歩を踏み出します。
大規模言語モデル(LLM)の能力を活用することで、最近の大規模マルチモーダルモデル(LMM)はオープンワールドにおけるマルチモーダル理解において顕著な汎用性を示しています。しかし、これらのモデルは通常パラメータが多く計算集約的であるため、リソースが制約されたシナリオでの適用が妨げられています。この問題に対処するため、いくつかの軽量なLMMが相次いで提案され、制約された規模(例:3B)での能力を最大化しようとしています。これらの手法が達成した有望な結果にもかかわらず、そのほとんどは設計空間の1つまたは2つの側面にのみ焦点を当てており、モデルの能力に影響を与える重要な設計選択がまだ徹底的に調査されていません。本論文では、モデルアーキテクチャ、トレーニング戦略、およびトレーニングデータの観点から、軽量LMMの体系的な研究を行います。私たちの調査結果に基づいて、2B-4Bスケールで高い能力を持つLMMファミリーであるImpを開発しました。特に、私たちのImp-3Bモデルは、同規模の既存の軽量LMMを一貫して上回り、13Bスケールの最先端LMMをも凌駕します。低ビット量子化と解像度低減技術を適用することで、ImpモデルはQualcomm Snapdragon 8Gen3モバイルチップ上に展開可能で、約13トークン/秒の高い推論速度を実現します。
多様なロボットデータセットで事前学習された大規模なポリシーは、ロボット学習を変革する可能性を秘めています。ゼロから新しいポリシーを訓練する代わりに、このような汎用的なロボットポリシーは、わずかなドメイン内データでファインチューニングするだけで、広範に一般化することができます。しかし、さまざまなロボット学習シナリオ、環境、タスクに広く適用するためには、このようなポリシーは多様なセンサーとアクション空間を扱い、一般的に使用されるさまざまなロボットプラットフォームに対応し、新しいドメインに迅速かつ効率的にファインチューニングできる必要があります。本研究では、オープンソースで広く適用可能な汎用的なロボット操作ポリシーの開発の基盤を築くことを目指しています。最初のステップとして、Open X-Embodimentデータセット(これまでで最大のロボット操作データセット)の80万の軌跡で訓練された、大規模なトランスフォーマーベースのポリシーであるOctoを紹介します。Octoは言語コマンドや目標画像で指示することができ、新しいセンサー入力やアクション空間を持つロボットセットアップに、標準的な消費者向けGPUで数時間以内に効果的にファインチューニングできます。9つのロボットプラットフォームにわたる実験で、Octoが新しい観測空間とアクション空間に効果的にファインチューニングできる汎用的なポリシー初期化として機能することを実証しました。また、Octoモデルの設計決定について、アーキテクチャから訓練データまで詳細なアブレーションを行い、汎用的なロボットモデルを構築するための将来の研究を導くための指針を提供します。
Transformerは、自然言語処理とコンピュータビジョンのタスクにおいて基盤となるアーキテクチャとして確立されています。しかし、その高い計算コストのため、リソースが限られたデバイスへの展開は非常に困難です。本論文では、効率的なTransformerの計算ボトルネックとなるモジュール、すなわち正規化層とアテンションモジュールについて調査します。LayerNormはTransformerアーキテクチャで一般的に使用されていますが、推論時の統計計算のため計算効率が良くありません。しかし、LayerNormをより効率的なBatchNormに置き換えると、性能が低下し、トレーニングが崩壊することがよくあります。この問題を解決するため、我々はトレーニング中にLayerNormを再パラメータ化されたBatchNormに段階的に置き換える新しい手法「PRepBN」を提案します。さらに、シンプルでありながら強力な性能を発揮する簡素化された線形アテンション(SLA)モジュールを提案します。画像分類および物体検出における広範な実験により、提案手法の有効性が実証されています。例えば、我々のSLAB-SwinはImageNet-1Kにおいて83.6%のトップ1精度を達成し、16.2msのレイテンシを示しました。これはFlatten-Swinよりも2.4ms短く、精度も0.1%高くなっています。また、言語モデリングタスクにおいても提案手法を評価し、同等の性能とより低いレイテンシを達成しました。コードはhttps://github.com/xinghaochen/SLABおよびhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLABで公開されています。
本研究では、Denoising Diffusion Implicit Models(DDIM)の反転プロセスを使用する際に、Interval Score Matching(ISM)における累積誤差によって引き起こされる疑似グラウンドトゥルースの不整合問題を解決するための新しいTrajectory Score Matching(TSM)手法を提案します。ISMが単一のパス上で計算を行うためにDDIMの反転プロセスを採用するのに対し、我々のTSM手法は、同じ開始点から2つのパスを生成して計算を行うためにDDIMの反転プロセスを活用します。両方のパスが同じ開始点から始まるため、TSMはISMと比較して累積誤差を減少させ、疑似グラウンドトゥルースの不整合問題を軽減することができます。TSMは、蒸留プロセス中にモデルが生成するパスの安定性と一貫性を向上させます。これを実験的に実証し、さらにISMがTSMの特殊なケースであることを示します。さらに、高解像度テキストから3D生成までの現在の多段階最適化プロセスを最適化するために、Stable Diffusion XLをガイダンスとして採用します。Stable Diffusion XLを使用する際に3D Gaussian splattingプロセス中に不安定な勾配によって引き起こされる異常な複製や分割の問題に対応するために、ピクセル単位の勾配クリッピング手法を提案します。大規模な実験により、我々のモデルが視覚品質と性能の両面で最先端のモデルを大幅に上回ることを示します。コード: https://github.com/xingy038/Dreamer-XL。