翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)は人工知能の領域を変革してきたが、その巨大なサイズは計算コストの面で重大な課題を提示している。本論文では、LLMsを構造的に枝刈りし、知識を回復するための新しい効率的なアプローチであるLoRAShearを紹介する。一般的なLLMsを対象として、LoRAShearはまず依存関係グラフを作成し、最小限の除去構造を発見し、知識分布を分析する。その後、LoRAアダプターに対して段階的な構造的枝刈りを進め、冗長構造内の情報をより良く保存するために固有の知識転移を可能にする。枝刈り中に失われた知識を回復するために、LoRAShearは綿密に研究を行い、動的データアダプターを用いた動的ファインチューニングスキームを提案し、完全モデルとの性能差を効果的に縮小する。数値結果は、わずか1台のGPUを数日間使用するだけで、LoRAShearがLLMsのフットプリントを20%削減し、性能劣化を1.0%に抑え、最先端技術を大幅に上回ることを示している。ソースコードはhttps://github.com/microsoft/lorashearで公開予定である。
我々は、GPT-4Vの能力を活用し、視覚、音声、音響の専門ツールと組み合わせた統合システム「MM-VID」を提案する。MM-VIDは、長時間の動画や複雑なタスク(例えば、1時間にわたるコンテンツ内での推論や複数エピソードにまたがるストーリーラインの理解)に対応するために設計されている。MM-VIDは、GPT-4Vを用いたビデオからスクリプト生成を行い、マルチモーダル要素を長文のテキストスクリプトに変換する。生成されたスクリプトは、キャラクターの動き、行動、表情、対話を詳細に記述し、大規模言語モデル(LLMs)による動画理解の基盤を提供する。これにより、音声解説、キャラクター識別、マルチモーダルな高レベル理解といった高度な機能が可能となる。実験結果は、MM-VIDが様々な長さの動画ジャンルを効果的に処理できることを示している。さらに、ビデオゲームやグラフィカルユーザーインターフェースなどのインタラクティブ環境への応用可能性も示す。
ビデオ生成は、学界と産業界の両方でますます注目を集めています。商用ツールは説得力のあるビデオを生成できますが、研究者やエンジニアが利用できるオープンソースモデルは限られています。本研究では、高品質なビデオ生成のための2つの拡散モデル、すなわちテキストからビデオ(T2V)モデルと画像からビデオ(I2V)モデルを紹介します。T2Vモデルは、与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加の画像入力を組み込みます。提案するT2Vモデルは、1024×576の解像度で現実的かつ映画品質のビデオを生成でき、品質の面で他のオープンソースT2Vモデルを上回ります。I2Vモデルは、提供された参照画像の内容、構造、スタイルを厳密に保持し、その内容に忠実なビデオを生成するように設計されています。このモデルは、与えられた画像をビデオクリップに変換しながら、内容保存の制約を維持する最初のオープンソースI2V基盤モデルです。これらのオープンソースビデオ生成モデルが、コミュニティ内の技術進歩に大きく貢献すると信じています。
大規模言語モデル(LLM)に対する需要が、コンテンツ生成、インテリジェントチャットボット、感情分析などのアプリケーションにおいて増大する中、LLMサービスプロバイダーにとっては大きな課題が生じています。GPUリソースを効率的に活用し、スループットを向上させるために、複数のリクエストをバッチ処理する手法が一般的なパラダイムとして登場しました。さらに、バッチ処理を高速化するために、LLMの量子化技術がメモリ消費を削減し、計算能力を向上させています。しかし、現在広く使われている量子化スキーム(例えば、8ビットの重みと活性化の量子化)では、4ビット整数演算子などの最新GPUの能力を十分に活用できず、最適な性能を発揮できないという問題があります。 LLMのサービススループットを最大化するために、私たちはAtomという低ビット量子化手法を提案します。Atomは、精度の低下をほとんど伴わずに高いスループット向上を実現します。Atomは、低ビット演算子を使用することでサービススループットを大幅に向上させ、低ビット量子化によりメモリ消費を大幅に削減します。さらに、新しい混合精度と細粒度の量子化プロセスを適用することで高い精度を維持します。私たちは、サービングコンテキストにおける4ビットの重みと活性化の量子化設定でAtomを評価しました。その結果、AtomはFP16と比較して最大7.73倍、INT8量子化と比較して2.53倍のエンドツーエンドスループット向上を達成し、同じレイテンシ目標を維持しました。
テキストから画像を生成する際に、カスタマイズされたオブジェクトを組み込むことは魅力的な機能です。しかし、既存の最適化ベースおよびエンコーダベースの手法は、時間のかかる最適化、不十分な同一性の保持、そして広く見られるコピー&ペースト効果といった欠点に悩まされています。これらの制限を克服するため、我々はCustomNetを提案します。これは、オブジェクトカスタマイズプロセスに3D新視点合成能力を明示的に組み込んだ新しいアプローチです。この統合により、空間的な位置関係や視点の調整が容易になり、オブジェクトの同一性を効果的に保持しつつ多様な出力を実現します。さらに、テキスト記述や特定のユーザー定義画像を通じて位置制御と柔軟な背景制御を可能にする精巧な設計を導入し、既存の3D新視点合成手法の限界を克服します。また、現実世界のオブジェクトや複雑な背景をより適切に扱えるデータセット構築パイプラインを活用します。これらの設計を備えた我々の手法は、テスト時の最適化を必要とせずにゼロショットオブジェクトカスタマイズを可能にし、視点、位置、背景の同時制御を提供します。その結果、CustomNetは同一性の保持を強化し、多様で調和のとれた出力を生成します。
大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な推論能力とデータ拡張能力を示しています。しかし、小規模モデルはどうでしょうか?本論文では、ほとんどのNLPサンプルに対して関連する基礎知識、連鎖的思考、一般的なミスを注釈できるTeacherLM-7.1Bを提案します。これにより、注釈は単なる答え以上のものとなり、他のモデルが「何を」ではなく「なぜ」を学べるようになります。TeacherLM-7.1Bモデルは、MMLUにおいて52.3のゼロショットスコアを達成し、100B以上のパラメータを持つほとんどのモデルを上回りました。さらに注目すべきは、そのデータ拡張能力です。TeacherLM-7.1Bを基に、58のNLPデータセットを拡張し、OPTおよびBLOOMシリーズの異なるパラメータを持つ様々な学生モデルをマルチタスク設定で指導しました。実験結果は、TeacherLMが提供するデータ拡張が大きな利益をもたらしたことを示しています。我々は、TeacherLMシリーズのモデルと拡張されたデータセットをオープンソースとして公開する予定です。
本論文では、最先端のマルチモーダル大規模言語モデル、すなわちGPT-4 with Vision(GPT-4V)のVisual Question Answering(VQA)タスクにおける能力を批判的に評価します。我々の実験では、病理学と放射線学のデータセットから11のモダリティ(例:顕微鏡、ダーモスコピー、X線、CTなど)および15の対象臓器(脳、肝臓、肺など)を用いて、画像とペアになった質問に答えるGPT-4Vの熟練度を徹底的に評価しました。我々のデータセットは、16の異なる質問タイプを含む、包括的な範囲の医学的問いを網羅しています。評価を通じて、GPT-4Vに視覚情報とテキスト情報を統合するよう指示するテキストプロンプトを考案しました。精度スコアを用いた実験の結果、現在のGPT-4Vのバージョンは、診断医学的質問に対する信頼性が低く最適ではない精度のため、実世界の診断には推奨されないと結論付けました。さらに、我々は医学的VQAにおけるGPT-4Vの振る舞いの7つの独特な側面を明らかにし、この複雑な領域における制約を強調します。評価ケースの完全な詳細はhttps://github.com/ZhilingYan/GPT4V-Medical-Reportで閲覧可能です。
強力なクローズドソースのLLM(ChatGPT、GPT-4)の台頭に伴い、クローズドソースのLLMの能力をより小さなオープンソースのLLMに蒸留することに対する関心が高まっています。従来の蒸留手法では、通常、ChatGPTに一連の指示と回答を生成させ、それを学生モデルに学習させていました。しかし、このような標準的な蒸留アプローチでは、学生モデルの利点や条件が考慮されていませんでした。現代の教育原理にインスパイアされ、私たちはパーソナライズされた蒸留プロセスを設計しました。このプロセスでは、学生がまずタスクを解決しようとし、その後、教師が学生の改善のために適応的な改良を提供します。教師の事前知識を学生に与える代わりに、パーソナライズされた蒸留は、学生モデルが誤りを犯した例のみを学習し、自身の解決策を改善することを学ぶパーソナライズされた学習を可能にします。コード生成において、パーソナライズされた蒸留は、データ量が3分の1であるにもかかわらず、標準的な蒸留を一貫して上回りました。わずか2.5-3Kのパーソナライズされた例(データ収集コストは4-6ドル)を用いて、CodeGen-mono-16Bを7%向上させて36.4%のpass@1を達成し、StarCoderを12.2%向上させて45.8%のpass@1をHumanEvalで達成しました。
本技術レポートでは、英語と中国語のテキストから抽出された3.2兆以上のトークンで訓練された大規模言語モデル(LLM)ファミリーであるSkywork-13Bを紹介します。この二言語基盤モデルは、これまでに公開された同規模のLLMの中で最も広範に訓練されたものです。我々は、セグメント化されたコーパスを使用した二段階の訓練方法を導入し、汎用訓練とドメイン特化の強化訓練をそれぞれ目指しました。本モデルが人気のあるベンチマークで優れた性能を発揮するだけでなく、多様なドメインにおける中国語言語モデリングで最先端の性能を達成することを示します。さらに、テストデータの汚染がLLMコミュニティによるさらなる調査を必要とする緊急の課題であることを示す、新しいリーク検出方法を提案します。今後の研究を促進するため、Skywork-13Bと訓練プロセスの中間段階で得られたチェックポイントを公開します。また、1500億以上のウェブテキストトークンを収集したSkyPileコーパスの一部も公開します。これは、これまでで最大の高品質なオープン中国語事前訓練コーパスです。Skywork-13Bと我々のオープンコーパスが、高品質なLLMへのアクセスを民主化するための貴重なオープンソースリソースとして役立つことを願っています。
テキストから3D生成は近年目覚ましい進歩を遂げており、特に事前学習済みの2D拡散モデルを活用するスコア蒸留サンプリング(SDS)に基づく手法が注目されています。クラスフリーガイダンスの使用が最適化の成功に不可欠であることは広く認識されていますが、それは最も本質的な要素ではなく補助的なトリックと見なされてきました。本論文では、スコア蒸留におけるクラスフリーガイダンスの役割を再評価し、驚くべき発見をしました:ガイダンス単独でも効果的なテキストから3D生成が可能であるということです。我々はこの手法をClassifier Score Distillation(CSD)と名付け、これは暗黙的な分類モデルを生成に使用するものと解釈できます。この新しい視点は、既存の技術を理解するための新たな洞察を明らかにします。我々はCSDの有効性を、形状生成、テクスチャ合成、形状編集を含む様々なテキストから3Dタスクで検証し、最先端の手法を上回る結果を達成しました。プロジェクトページはhttps://xinyu-andy.github.io/Classifier-Score-Distillationです。