翻訳付きの日次キュレーションされたAI研究論文
我々は、TinyStoriesで始められた小規模なTransformerベースの言語モデルの能力に関する調査を継続している。TinyStoriesは1000万パラメータのモデルであり、一貫性のある英語を生成できる。その後、phi-1という13億パラメータのモデルが開発され、Pythonコーディング性能において最先端に近い成果を上げた。この後続研究では、従来のウェブデータと比較して学習プロセスを強化するために、既存の大規模言語モデル(LLM)を使用して「教科書品質」のデータを生成する方法が提案された。我々は「Textbooks Are All You Need」アプローチに従い、今回は自然言語における常識推論に焦点を当て、phi-1.5という新しい13億パラメータのモデルを作成した。このモデルは、自然言語タスクにおいて5倍大きいモデルに匹敵する性能を示し、小学校レベルの数学や基本的なコーディングなどのより複雑な推論タスクでは、ほとんどの非最先端LLMを凌駕している。より一般的に、phi-1.5は、より大規模なLLMの多くの特性を示している。良い特性としては、「段階的に考える」能力や、いくつかの初歩的な文脈内学習を実行する能力などが挙げられる。一方で、悪い特性としては、幻覚や、有害で偏った生成物の可能性などが含まれる。しかし、ウェブデータが存在しないことにより、この点に関して改善が見られることは励みになる。我々は、これらの緊急のトピックに関するさらなる研究を促進するために、phi-1.5をオープンソースとして公開する。
近年、マルチモーダル大規模言語モデル(MM-LLMs)は目覚ましい進歩を遂げていますが、その多くは入力側のマルチモーダル理解に限定されており、複数のモダリティでコンテンツを生成する能力を持っていません。私たち人間は常にさまざまなモダリティを通じて世界を認識し、他者とコミュニケーションを取るため、あらゆるモダリティでコンテンツを受け取り、提供できるany-to-any MM-LLMsの開発は、人間レベルのAIを実現する上で不可欠です。このギャップを埋めるため、我々はエンドツーエンドの汎用any-to-any MM-LLMシステムであるNExT-GPTを提案します。NExT-GPTは、LLMをマルチモーダルアダプターと異なるディフュージョンデコーダーと接続し、テキスト、画像、動画、音声の任意の組み合わせで入力を認識し、出力を生成できるようにします。既存の高性能なエンコーダーとデコーダーを活用することで、NExT-GPTは特定の投影層のわずかなパラメータ(1%)のみをチューニングし、低コストでのトレーニングを実現するとともに、より多くの潜在的なモダリティへの拡張を容易にします。さらに、モダリティ切り替え指示チューニング(MosIT)を導入し、MosIT用の高品質なデータセットを手作業で作成しました。これに基づいて、NExT-GPTは複雑なクロスモーダルセマンティック理解とコンテンツ生成の能力を獲得します。全体として、本研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示しており、コミュニティにおけるより人間らしいAI研究の道を切り開くものです。
私たちは、CommonCrawlを基にした419言語にわたる3Tトークンの一般領域単一言語データセットであるMADLAD-400を紹介します。このデータセットは手動で監査されており、自己監査によって明らかになった制限事項や、データ監査がデータセット作成プロセスにおいて果たした役割について議論します。次に、公開されているデータを用いて、450以上の言語をカバーする2500億トークンに基づく107億パラメータの多言語機械翻訳モデルをトレーニングし、リリースします。このモデルは、大幅に大規模なモデルと競合することを確認し、異なるドメインでの結果を報告します。さらに、80億パラメータの言語モデルをトレーニングし、少数ショット翻訳における結果を評価します。これらのベースラインモデルを研究コミュニティに公開します。
本研究では、大規模言語モデル(LLM)を用いて、理論計算機科学と数学における最も重要な未解決問題の一つであるP対NP問題の研究を拡充・加速する。具体的には、複雑な問題解決のためにLLMを用いた深い思考を促進する汎用フレームワークである「ソクラテス的推論」を提案する。ソクラテス的推論は、LLMが問題を再帰的に発見し、解決し、統合することを促すと同時に、自己評価と改善を促進する。P対NP問題に関するパイロット研究では、GPT-4が証明スキーマを生成し、97回の対話を通じて厳密な推論を行い、「P ≠ NP」という結論に至ったことが示された。これは(Xu and Zhou, 2023)と一致する結果である。この調査により、LLMの広大な解空間における新たな洞察が明らかになり、科学のためのLLMの可能性が示唆された。
私たちは、単一のGPUで実行可能な軽量な方法で、大規模言語モデルのファミリーを分析します。具体的には、125Mから66BパラメータまでのOPTモデルファミリーに焦点を当て、FFNニューロンが活性化されているかどうかのみに依存します。まず、ネットワークの初期部分はスパースであり、多くの離散的特徴を表現していることがわかります。ここでは、多くのニューロン(66Bモデルの一部の層では70%以上)が「死んでいる」、つまり、多様なデータの大規模なコレクションにおいて一度も活性化されないことが観察されます。同時に、活性化されているニューロンの多くは離散的特徴のために予約されており、トークンやn-gramの検出器として機能します。興味深いことに、それらに対応するFFNの更新は、次のトークンの候補を促進するだけでなく、それらをトリガーしたトークン(つまり現在の入力)に関する情報を明示的に除去することに焦点を当てています。私たちの知る限り、これは残差ストリームから情報を追加するのではなく、除去することに特化したメカニズムの最初の例です。スケールが大きくなるにつれて、モデルはよりスパースになり、死んでいるニューロンやトークン検出器が増えます。最後に、一部のニューロンは位置依存であり、それらが活性化されるかどうかは、主に(または完全に)位置に依存し、テキストデータにはあまり(または全く)依存しません。小規模なモデルには、位置範囲を示すニューロンのセットがあるのに対し、大規模なモデルはより曖昧な方法で動作することがわかります。
近年、大量のテキストデータが大規模言語モデル(LLM)の発展に大きく貢献してきました。このデータは通常、インターネットをスクレイピングすることで取得され、ノイズの多いウェブテキストからなる事前学習データセットが構築されます。これまで、これらのデータセットを高品質なサブセットに絞り込む取り組みは、ルールベースのフィルタとしてエンコードされた手作りのヒューリスティックに依存してきました。本研究では、より広い視点から、事前学習データの品質を体系的に測定するためのスケーラブルな品質推定手法を探求します。私たちは、シンプルなデータ品質推定器であるパープレキシティと、より洗練され計算コストの高いError L2-Normおよび記憶化の推定手法を大規模に比較します。これらのメトリクスを使用して事前学習コーパスをランク付けし、絞り込みを行い、その後、これらの絞り込まれたデータセットで訓練されたLLMを比較します。驚くべきことに、パープレキシティというシンプルな手法が、より計算コストの高いスコアリング手法を上回ることがわかりました。私たちは、元の訓練データセットのわずか30%を使用して訓練しながら、絞り込みを行わないベースラインを改善しました。本研究は、高品質なコーパスを自動的にキュレートするための未開拓の戦略の基盤を築き、性能を維持しながら事前学習データの大部分を削除できる可能性を示唆しています。
Transformerは深層学習において支配的なモデルとなっているが、その優れた性能の理由は十分に理解されていない。本研究では、Transformerの強力な性能は、メサ最適化(モデルの順伝播中に実行される学習プロセス)に対するアーキテクチャ的なバイアスに起因すると仮説を立てる。このプロセスは以下の2つのステップから構成される:(i) 内部的な学習目標の構築、(ii) 最適化を通じたその対応する解の発見。この仮説を検証するため、単純な系列モデリングタスクで訓練された一連の自己回帰型Transformerを逆解析し、予測生成を駆動する基盤となる勾配ベースのメサ最適化アルゴリズムを明らかにした。さらに、学習された順伝播最適化アルゴリズムが、教師ありfew-shotタスクを解くために即座に再利用可能であることを示し、メサ最適化が大規模言語モデルの文脈内学習能力の基盤となっている可能性を示唆する。最後に、文脈内で指定された最適化問題を明示的かつ効率的に解く新しいセルフアテンション層、メサ層を提案する。この層が合成データおよび予備的な言語モデリング実験において性能向上をもたらすことを確認し、メサ最適化が訓練済みTransformerの重み内に隠された重要な操作であるという仮説に重みを加える。
大規模言語モデル(LLM)は、言語関連タスクにおいてその卓越した能力を証明してきた。しかし、その展開には、膨大なメモリとストレージ要件が伴うため、大きな課題が存在する。この問題に対応するため、特に3ビットおよび4ビットの重みのみの量子化が、最も有効な解決策の一つとして浮上している。ビット数が減少するにつれて、量子化グリッドが広がり、その結果、切り上げと切り下げの重要性が強調される。これまでの研究では、摂動を加えた切り上げと切り下げの微調整が、一部のシナリオで精度を向上させることが示されてきたが、本研究は、これらの摂動の正確で限定的な境界に焦点を当てており、切り上げ値を変更するための閾値のみが重要である。その結果、重みの丸めタスクを最適化するための簡潔で非常に効果的なアプローチを提案する。我々の手法は、SignRoundと名付けられ、符号付き勾配降下法を用いた軽量なブロック単位のチューニングを採用し、400ステップ以内で優れた結果を達成する。SignRoundは、最近の手法と比較しても印象的な性能を発揮し、追加の推論オーバーヘッドを導入することなく、既存の最近傍丸め(RTN)ベースラインを上回る。ソースコードは、まもなくhttps://github.com/intel/neural-compressorで公開される予定である。
音声-言語モデルは、マルチモーダルなテキストと音声の表現を共同で学習し、ゼロショット推論を可能にします。モデルは、強力な入力表現を作成し、音、音楽、音声にわたる複数のタスクに一般化するためにエンコーダに依存しています。モデルは顕著な性能を達成していますが、タスク固有のモデルとの間には依然として性能差が存在します。本論文では、4.6Mの音声-テキストペアの多様なコレクションを使用して事前学習され、ゼロショット推論のための2つの革新的なエンコーダを採用したContrastive Language-Audio Pretrainingモデルを提案します。音声表現を学習するために、標準的な音響イベント分類の代わりに、22の音声タスクで音声エンコーダを学習しました。言語表現を学習するために、標準的なエンコーダのみのモデルの代わりに、自己回帰型デコーダのみのモデルを学習しました。その後、音声と言語の表現は、Contrastive Learningを使用して共同のマルチモーダル空間に統合されます。私たちは、エンコーダを使用して下流タスクの性能を向上させました。私たちは、文献で最大の26の下流タスクにおいて、表現の一般化を広範に評価しました。私たちのモデルは、いくつかのタスクで最先端の結果を達成し、汎用音声表現への道を切り開いています。
フォトリアルなNeural Radiance Fields(NeRF)ボリューム内に多角形メッシュアセットを埋め込み、NeRFと物理的に整合性のある方法でレンダリングおよびダイナミクスシミュレーションを行うことは、NeRFを従来のグラフィックスパイプラインに統合するシステムの観点からは未開拓の領域です。本論文では、レンダリングとシミュレーション中にメッシュとNeRFの双方向結合を設計します。まず、メッシュとNeRFの光輸送方程式をレビューし、それらを任意のバウンス数を持つキャストレイに沿った放射輝度とスループットを効率的に更新するアルゴリズムに蒸留します。パストレーサーが想定する線形カラースペースと標準NeRFが使用するsRGBカラースペースの不一致を解決するため、High Dynamic Range(HDR)画像でNeRFをトレーニングします。また、NeRF上の光源を推定し、影を落とす戦略を提示します。最後に、ハイブリッドな表面-体積定式化が、布、剛体、軟体をサポートする高性能物理シミュレータと効率的に統合される方法を考察します。完全なレンダリングおよびシミュレーションシステムは、GPU上でインタラクティブな速度で実行可能です。ハイブリッドシステムアプローチは、体積NeRFメディアから表面への現実的な光輸送を可能にするため、メッシュ挿入における視覚的リアリズムの点で代替手法を上回ることを示します。これは、反射/屈折面の外観や、動的シーンに基づく拡散面の照明に影響を与えます。
大規模言語モデル(LLM)の学習パラダイムは、現在、主にコンテキスト内学習(ICL)と完全なファインチューニングのいずれかに分類される傾向があります。これらのそれぞれには、利用可能なデータ、モデルサイズ、計算コスト、使いやすさ、最終的な品質に基づいてトレードオフがあり、どちらのソリューションもすべての面で優れた性能を発揮するわけではありません。本稿ではまず、ICLとファインチューニングのパラダイムを、それらの自然な関連性を強調する形で説明します。これらの関連性に基づいて、我々はFIATと呼ばれる新しい学習パラダイムを提案します。FIATはこれらのパラダイムの長所を融合し、最大規模のモデルに対してプロンプトエンジニアリングされた指示と連鎖思考推論を可能にすると同時に、パラメータ効率的なチューニングを用いて中規模のLLMに対してパラメータ更新を行う方法を採用します。我々はFIATの有効性を多言語タスクのさまざまなスケールで評価し、100から10,000のトレーニング例の範囲でFIATがICLとファインチューニングの両方を上回る性能を示すことを確認しました。FIATが、学習パラダイムの間で難しい選択をすることなく、LLMの全潜在能力を活用する実用的な方法を提供することを期待しています。