翻訳付きの日次キュレーションされたAI研究論文
近年、大規模言語モデル(LLM)の急速な発展が目覚ましい。多くの言語理解タスクにおいて強力な能力を発揮する一方で、その膨大な計算負荷は、特にエッジデバイスへの展開を考える際に、LLMの応用を大きく制限している。本論文では、量子化を考慮した低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は、量子化と適応の自由度の不均衡にあり、解決策として、グループ単位の演算子を使用することで、量子化の自由度を増加させつつ、適応の自由度を減少させる。QA-LoRAは数行のコードで容易に実装可能であり、元のLoRAに以下の二つの能力を付与する:(i) ファインチューニング中に、LLMの重みを量子化(例えばINT4)して時間とメモリ使用量を削減する、(ii) ファインチューニング後、LLMと補助重みを精度を損なうことなく自然に量子化モデルに統合する。我々はQA-LoRAをLLaMAおよびLLaMA2モデルファミリーに適用し、異なるファインチューニングデータセットおよび下流タスクにおける有効性を検証した。コードはhttps://github.com/yuhuixu1993/qa-loraで公開予定である。
本研究は、事前学習済みのテキストから画像を生成するモデル(T2I)を基盤として、高品質なテキストから動画を生成するモデル(T2V)を学習することを目的としています。これは、a)視覚的にリアルで時間的に一貫した動画の合成を実現しつつ、b)事前学習済みT2Iモデルの強力な創造的生成能力を維持するという、非常に望ましいながらも困難な課題です。この目的のために、我々はLaVieを提案します。これは、ベースとなるT2Vモデル、時間補間モデル、動画超解像モデルから構成される、カスケード型の動画潜在拡散モデル上で動作する統合型動画生成フレームワークです。我々の重要な洞察は2つあります:1)単純な時間的自己注意機構と回転位置エンコーディングを組み込むことで、動画データに内在する時間的相関を適切に捉えられることを明らかにしました。2)さらに、画像と動画の共同ファインチューニングプロセスが、高品質で創造的な結果を生み出す上で重要な役割を果たすことを検証しました。LaVieの性能を向上させるため、我々はVimeo25Mという包括的で多様な動画データセットを提供します。これは、品質、多様性、美的魅力を重視した2500万のテキスト-動画ペアで構成されています。大規模な実験により、LaVieが定量的・定性的に最先端の性能を達成することが実証されました。さらに、事前学習済みLaVieモデルの多様性を、長尺動画生成やパーソナライズド動画合成など様々な応用で示しています。
典型的なTransformerベースの大規模言語モデル(LLM)における計算は、バッチサイズ、隠れ層の次元数、層数、およびシーケンス長によって特徴づけられます。これまで、LLMの学習を加速するためのシステム研究は、最初の3つの次元に焦点を当ててきました。具体的には、バッチサイズに対するデータ並列処理、隠れ層の次元数に対するテンソル並列処理、およびモデルの深さ(層数)に対するパイプライン並列処理です。これらの広く研究されてきた並列処理手法は、長いシーケンスを持つTransformerモデルに特化または最適化されていません。長いシーケンスを扱うLLMの実用的なニーズを考慮し、シーケンス並列処理に対する新たな注目が集まっています。しかし、既存のシーケンス並列処理の研究は、メモリと通信の非効率性に制約されており、長いシーケンスを持つ大規模モデルへの拡張性が限られています。本研究では、極めて長いシーケンス長でのLLM学習を可能にする、新規で移植性が高く効果的な手法であるDeepSpeed-Ulyssesを紹介します。DeepSpeed-Ulyssesは、その核心において入力データをシーケンス次元に沿って分割し、アテンション計算のために効率的な全対全集団通信を採用します。理論的な通信分析によると、他の手法ではシーケンス長が増加するにつれて通信オーバーヘッドが発生するのに対し、DeepSpeed-Ulyssesはシーケンス長と計算デバイスが比例して増加する場合でも通信量を一定に保ちます。さらに、実験的評価では、DeepSpeed-Ulyssesが既存のSOTAベースラインと比較して、4倍長いシーケンス長で2.5倍高速に学習することが示されています。
LLM(大規模言語モデル)やDiffusionモデルなどの深層学習手法の最近の進展により、これらの現代的なアーキテクチャの計算要求を満たしつつ精度を維持するための改良された量子化手法の必要性が高まっています。この目標に向けて、我々はFP8データフォーマットの利点を、機械翻訳、言語モデリング、テキスト生成、画像分類、生成、セグメンテーションなど幅広いタスクをカバーする75のユニークなネットワークアーキテクチャにわたるポストトレーニング量子化において研究しました。我々は、動的範囲と精度のトレードオフの程度がモデルの精度に及ぼす影響を調べるために、3つの異なるFP8表現(E5M2、E4M3、E3M4)を検証しました。広範な研究に基づいて、異なるネットワークアーキテクチャにわたって一般化可能な量子化ワークフローを開発しました。我々の実証結果は、FP8フォーマットがINT8を複数の面で上回ることを示しています。具体的には、ワークロードカバレッジ(92.64% vs. 65.87%)、モデルの精度、およびより広範な操作への適合性が挙げられます。さらに、我々の調査結果は、E4M3がNLPモデルにより適しているのに対し、E3M4はコンピュータビジョンタスクにおいてE4M3よりもわずかに優れていることを示唆しています。コードはIntel Neural Compressorで公開されています: https://github.com/intel/neural-compressor。
Transformerベースの大規模言語モデル(LLM)が事実に反するテキストを生成する際の内部動作を調査します。我々は、事実に関するクエリを制約充足問題としてモデル化し、このフレームワークを用いてモデルが内部的に事実制約とどのように相互作用するかを探ります。具体的には、モデルの制約トークンへの注意とその応答の事実的精度との間に強い正の相関関係があることを発見しました。40,000以上のプロンプトを含む11のデータセットを整備し、Llama-2ファミリーの全スケール(7B、13B、70B)における事実誤りの予測タスクを研究しました。我々は、自己注意パターンをプローブするSAT Probeという手法を提案し、これにより制約充足と事実誤りを予測し、早期の誤り識別を可能にします。このアプローチと発見は、LLMにおける事実性のメカニズム的理解を活用することで信頼性を向上させることができることを示しています。