翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)はテキスト生成において印象的な能力を示すが、その能力はまだ人類の創造的言語である音楽にまで一般化されていないことがわかります。本論文では、内在的な音楽能力を統合したオープンソースのLLMであるChatMusicianを紹介します。これは、テキスト互換の音楽表現であるABC記譜法を用いてLLaMA2を継続的に事前学習および微調整し、音楽を第二言語として扱うことに基づいています。ChatMusicianは、外部のマルチモーダルニューラル構造やトークナイザーを一切使用せず、純粋なテキストトークナイザーで音楽を理解し生成することができます。興味深いことに、音楽能力を付与しても言語能力が損なわれることはなく、むしろMMLUスコアがわずかに向上しています。私たちのモデルは、テキスト、コード、メロディー、モチーフ、音楽形式などに基づいて、構造的に整ったフルレングスの音楽を作曲することができ、GPT-4のベースラインを上回ります。私たちが入念に作成した大学レベルの音楽理解ベンチマークであるMusicTheoryBenchにおいて、ChatMusicianはゼロショット設定でLLaMA2とGPT-3.5を顕著な差で上回ります。私たちの研究は、LLMが音楽の優れた圧縮器となり得ることを示していますが、まだ征服すべき重要な領域が残されています。私たちは、4Bトークンの音楽言語コーパスであるMusicPile、収集したMusicTheoryBench、コード、モデル、デモをGitHubで公開しています。
私たちは、8兆のテキストトークンでトレーニングされた150億パラメータの大規模多言語言語モデル、Nemotron-4 15Bを紹介します。Nemotron-4 15Bは、英語、多言語、およびコーディングタスクにおいて優れたパフォーマンスを示します。7つの下流評価領域のうち4つで、同規模の既存のオープンモデルを上回り、残りの領域でも主要なオープンモデルと競争力のある性能を達成しています。特に、Nemotron-4 15Bは、同規模のモデルの中で最高の多言語能力を示し、4倍以上大きなモデルや、多言語タスクに特化したモデルさえも凌駕しています。
大規模言語モデル(LLM)をゼロからトレーニングすることは、確かに独自の能力と強みを持つモデルを生み出すことができるが、このアプローチは多大なコストを伴い、能力の重複を引き起こす可能性がある。代替戦略として、既存のLLMを組み合わせてより強力なLLMを構築し、高価な事前トレーニングの必要性を軽減する方法がある。しかし、LLMの多様なアーキテクチャのため、直接的なパラメータのブレンドは実現不可能である。最近、FuseLLMは、構造的に異なる複数のLLMの集合的な知識を軽量な継続的トレーニングを通じてターゲットLLMに転送する「知識融合」の概念を導入した。本報告では、FuseLLMフレームワークの拡張性と柔軟性を高め、チャットLLMの融合を実現するFuseChatを提案する。 FuseChatは主に2つの段階から構成される。まず、構造的および規模的に異なるソースLLMに対して知識融合を行い、軽微なファインチューニングを通じて同一の構造とサイズを持つ複数のターゲットLLMを導出する。次に、これらのターゲットLLMをパラメータ空間内で統合し、ファインチューニング前後のパラメータ行列の変動率に基づいて統合ウェイトを決定する新たな手法を提案する。我々は、NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7Bという多様なアーキテクチャと規模を持つ3つの主要なチャットLLMを用いてこのアプローチを検証した。様々なチャットドメインにわたる実験結果は、7Bおよび34Bスケールの広範なチャットLLMにおいて\textsc{FuseChat-7B}の優位性を示しており、GPT-3.5(3月版)を上回り、Mixtral-8x7B-Instructに迫る性能を発揮している。我々のコード、モデル重み、データはhttps://github.com/fanqiwan/FuseLLMで公開されている。
10,000以上のGPU規模で大規模言語モデル(LLM)を訓練するためのプロダクションシステムであるMegaScaleの設計、実装、およびエンジニアリング経験を紹介します。この規模でのLLM訓練は、訓練効率と安定性において前例のない課題をもたらします。我々は、モデルブロックとオプティマイザ設計、計算と通信のオーバーラップ、演算子最適化、データパイプライン、ネットワークパフォーマンスチューニングにわたるアルゴリズムとシステムコンポーネントを共設計するフルスタックアプローチを採用しています。LLM訓練ジョブの長期にわたる特性を考慮し、訓練プロセス全体を通じて高い効率(すなわち安定性)を維持することが重要です。多くの深刻な安定性問題は大規模な場合にのみ顕在化し、深い可観測性がそれらに対処する鍵となります。我々は、システムコンポーネントとスタック深部のイベントを監視し、根本原因を特定し、フォールトトレランスを実現し、遅延を軽減する効果的な技術を導出するための診断ツールセットを開発しました。MegaScaleは、12,288 GPUで175B LLMモデルを訓練する際に55.2%のModel FLOPs Utilization(MFU)を達成し、Megatron-LMと比較してMFUを1.34倍向上させました。我々は、障害や遅延を特定し修正する運用経験を共有します。システムの観点から問題を明確にし、経験を共有することで、今後のLLMシステム研究にインスピレーションを与えることを期待しています。
Low-Rank Adaptation (LoRA) は、テキストから画像を生成するモデルにおいて、特定のキャラクターや独自のスタイルといった要素を正確に再現するために広く利用されています。しかし、既存の手法では、特に統合するLoRAの数が増えるにつれて、複数のLoRAを効果的に組み合わせることが難しく、複雑な画像の生成が妨げられています。本論文では、デコード中心の視点からマルチLoRAの組み合わせを研究します。我々は、訓練を必要としない2つの手法を提案します。1つは、各ノイズ除去ステップで異なるLoRAを切り替えるLoRA Switch、もう1つは、すべてのLoRAを同時に組み込んでより一貫性のある画像合成を導くLoRA Compositeです。提案手法を評価するために、本研究の一環としてComposLoRAという新しい包括的なテストベッドを構築しました。ComposLoRAは、480の組み合わせセットを持つ多様なLoRAカテゴリを特徴としています。GPT-4Vに基づく評価フレームワークを活用した結果、我々の手法は、特に組み合わせるLoRAの数が増える場合において、一般的なベースラインよりも明確な性能向上を示すことが明らかになりました。
大規模言語モデル(LLM)が複雑なプロンプト(例:「『Superstition』の歌手の母親は」)に対して潜在的にマルチホップ推論を行っているかどうかを研究する。我々は、LLMが(1)潜在的に「『Superstition』の歌手」をStevie Wonder(ブリッジエンティティ)として特定し、(2)Stevie Wonderの母親に関する知識を用いてプロンプトを完成させるという潜在的な推論経路の証拠を探る。これら2つのホップを個別に分析し、それらの共起を潜在的なマルチホップ推論の指標と見なす。第1ホップについては、プロンプトを変更してブリッジエンティティを間接的に言及することで、他のエンティティではなくブリッジエンティティの内部想起が増加するかどうかをテストする。第2ホップについては、この想起が増加することで、LLMがブリッジエンティティに関する知識をより良く活用するかどうかをテストする。特定の関係タイプのプロンプトに対しては、80%以上のプロンプトで推論経路が使用されるという強い証拠が見つかった。しかし、その活用は非常に文脈依存であり、異なるタイプのプロンプトによって大きく異なる。また、平均的に見ると、第2ホップおよび完全なマルチホップ横断の証拠はやや控えめであり、第1ホップに対してのみ顕著である。さらに、推論の第1ホップについてはモデルサイズの増加に伴う明確なスケーリング傾向が見られるが、第2ホップについてはその傾向が見られない。我々の実験結果は、LLMの将来の開発と応用における潜在的な課題と機会を示唆している。
表、グラフ、データベースなどの構造化データソースは、遍在する知識源です。大規模言語モデル(LLM)がプレーンテキストにおいて示した能力にもかかわらず、構造化データの解釈と活用における熟練度は限られています。私たちの調査では、LLMの構造化データ処理能力に顕著な欠陥があることが明らかになりました。例えば、ChatGPTは最先端(SoTA)モデルに平均35%遅れを取っています。LLMの構造化知識基盤(SKG)能力を強化するため、110万の例を含む包括的な指示チューニングデータセットを開発しました。このデータセットを活用し、Code-LLaMAアーキテクチャに基づく7Bから34BパラメータまでのStructLMシリーズのモデルをトレーニングしました。私たちのStructLMシリーズは、評価された18のデータセットのうち14においてタスク固有のモデルを上回り、7つのSKGタスクで新たなSoTAを達成しました。さらに、StructLMは6つの新しいSKGタスクにおいて卓越した汎化能力を示しました。予想に反して、モデルサイズのスケーリングは限定的な利益しかもたらさず、StructLM-34BはStructLM-7Bに対してわずかな改善しか示しませんでした。これは、構造化知識基盤が依然として困難なタスクであり、新たなレベルに押し上げるためにはより革新的な設計が必要であることを示唆しています。
「大きければ大きいほど良い」という考え方が、近年の大規模言語モデル(LLM)開発における主流のトレンドとなってきました。しかし、LLMは、オンデバイス処理、エネルギー効率、低メモリフットプリント、応答効率を必要とするシナリオには適していません。これらの要件は、プライバシー、セキュリティ、持続可能な展開にとって重要です。本論文では、リソースが制約されたデバイス向けに、正確でありながら効率的な小型言語モデル(SLM)を設計するという課題に取り組むことで、「少ないほど良い」というパラダイムを探求します。私たちの主な貢献は、リソースが制約されたコンピューティングの特定のニーズに対応し、リソース要求を削減しながら性能を向上させることに重点を置いた、正確で完全に透明なオープンソースの5億(0.5B)パラメータのSLM、MobiLlamaを紹介することです。MobiLlamaは、より大きなモデルから始め、慎重に設計されたパラメータ共有スキームを適用することで、事前学習と展開の両方のコストを削減するSLM設計です。私たちの研究は、オープンソースのSLMにおけるギャップを埋めるだけでなく、完全な透明性を確保することを目指しており、完全なトレーニングデータパイプライン、トレーニングコード、モデルウェイト、300以上のチェックポイント、および評価コードが以下で利用可能です:https://github.com/mbzuai-oryx/MobiLlama。
比較設定(例:ペアワイズ選択、リストワイズランキング)は、画像品質評価(IQA)における主観的研究において広く採用されてきました。これは、異なる観察者間で評価基準を標準化し、より明確な回答を提供するためです。本研究では、新興の大規模マルチモーダルモデル(LMMs)の可能性を拡張し、視覚的品質比較をオープンエンド設定にさらに進化させます。具体的には、1) 品質比較に関する広範な質問に応答できること、2) 直接的な回答を超えた詳細な理由を提供できることです。この目的のために、Co-Instructを提案します。この初のオープンソースのオープンエンド視覚品質比較器を訓練するために、Co-Instruct-562Kデータセットを収集しました。このデータセットは、2つのソースから構成されています:(a) LMMを統合した単一画像品質記述、(b) 未ラベルデータに対するGPT-4V「教師」の回答。さらに、この設定をより適切に評価するために、LMMsのための初のマルチ画像比較ベンチマークであるMICBenchを提案します。Co-Instructは、既存の関連ベンチマークと提案されたMICBenchの両方において、最先端のオープンソースLMMsよりも30%高い優位精度を達成し、GPT-4V(その教師)をも凌駕することを実証します。私たちのモデルはhttps://huggingface.co/q-future/co-instructで公開されています。
大規模言語モデル(LLM)が現実世界の多くのアプリケーションでますます普及するにつれ、ユーザー入力に対するその堅牢性を理解し向上させることが極めて重要となっています。既存の敵対的プロンプトを特定する手法は、特定のドメインに焦点を当てる傾向があり、多様性に欠けたり、大量の人間による注釈を必要としたりします。これらの制限に対処するため、我々は多様な敵対的プロンプトのコレクションを生成する新しいアプローチであるRainbow Teamingを提案します。Rainbow Teamingは、敵対的プロンプト生成を品質と多様性の問題として捉え、オープンエンドの探索を用いて効果的かつ多様なプロンプトを生成します。これにより、本論文では安全性、質問応答、サイバーセキュリティなど、幅広いドメインにわたるモデルの脆弱性を明らかにすることができます。また、Rainbow Teamingによって生成された合成データを用いたファインチューニングが、最先端のLLMの安全性を向上させ、その一般的な能力や有用性を損なうことなく、オープンエンドの自己改善への道を開くことを実証します。