翻訳付きの日次キュレーションされたAI研究論文
言語モデル(LM)は、NLP研究と商用製品の両方で広く普及しています。その商業的重要性が高まるにつれ、最も強力なモデルはクローズド化され、独自のインターフェースの背後に隠され、そのトレーニングデータ、アーキテクチャ、開発に関する重要な詳細が非公開となっています。これらの詳細が、モデルのバイアスや潜在的なリスクを含む科学的な研究において重要であることを考慮すると、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると私たちは考えています。この目的のために、本テクニカルレポートでは、最先端の真にオープンな言語モデルであるOLMoと、言語モデリングの科学を構築し研究するためのフレームワークの初回リリースについて詳細に説明します。これまでの多くの取り組みがモデルの重みと推論コードのみを公開してきたのとは異なり、私たちはOLMoとそのフレームワーク全体、トレーニングデータ、トレーニングおよび評価コードを公開します。このリリースがオープン研究コミュニティを強化し、新たなイノベーションの波を引き起こすことを願っています。
言語モデルは、幅広い自然言語処理タスクに対処するための重要な技術となっているが、最高性能を発揮する言語モデルがどのように開発されたかについての詳細は多くが報告されていない。特に、その事前学習コーパスに関する情報はほとんど議論されない。商用の言語モデルは、そのデータに関する情報を提供することは稀であり、オープンモデルでさえ、トレーニングに使用されたデータセットやそれを再現するための正確なレシピを公開することはほとんどない。その結果、トレーニングデータがモデルの能力にどのような影響を与え、その限界をどのように形作るかを理解するといった、言語モデリング研究の特定の方向性を進めることが困難となっている。言語モデルの事前学習に関するオープンな研究を促進するため、我々はDolmaという3兆トークンからなる英語コーパスを公開した。このコーパスは、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典資料など、多様な情報源から構築されている。さらに、我々の作業をさらに実験し再現するために、データキュレーションツールキットをオープンソース化した。本報告書では、Dolmaの設計原則、構築の詳細、およびその内容の概要を記録している。また、Dolmaの中間状態で言語モデルをトレーニングした結果から得られた分析と実験結果を織り交ぜ、コンテンツや品質フィルターの役割、重複排除、複数ソースの混合など、重要なデータキュレーションの実践について学んだことを共有する。Dolmaは、言語モデリングの科学を構築し研究するために設計された最先端のオープン言語モデルおよびフレームワークであるOLMoのトレーニングに使用されている。
私たちはCroissantLLMを紹介します。これは1.3Bパラメータの言語モデルで、3兆の英語とフランス語のトークンで事前学習されており、研究および産業コミュニティに高性能で完全にオープンソースのバイリンガルモデルを提供し、消費者向けのローカルハードウェアで迅速に動作します。そのために、1:1の英語対フランス語の事前学習データ比率、カスタムトークナイザー、およびバイリンガルのファインチューニングデータセットを使用して、本質的にバイリンガルなモデルをトレーニングするアプローチを開拓しました。私たちはトレーニングデータセットを公開し、特に手作業でキュレーションされた高品質で多様なデータソースを含むフランス語の分割を提供します。英語以外のパフォーマンスを評価するために、フランス語におけるモデルのパフォーマンスのさまざまな直交する側面をカバーする分類および生成タスクの配列からなる新しいベンチマーク、FrenchBenchを作成しました。さらに、透明性に根ざし、大規模言語モデルの研究を促進するために、コードベースやさまざまなモデルサイズ、トレーニングデータ分布、トレーニングステップにわたる数十のチェックポイント、ファインチューニングされたチャットモデル、強力な翻訳モデルを公開します。私たちはFMTIフレームワークを通じてモデルを評価し、透明性基準の81%を検証し、ほとんどのオープンイニシアチブをはるかに超えるスコアを達成しました。この研究はNLPの風景を豊かにし、以前の英語中心の研究から脱却して、言語モデルにおける多言語性の理解を強化します。
文脈を理解することは人間の言語を理解する上で鍵となる能力であり、大規模言語モデル(LLMs)がこの能力を驚くべき程度に示すことがますます確認されています。しかし、LLMsの評価は自然言語処理の領域内で様々なドメインを網羅しているものの、文脈的特徴を理解するという言語能力を探ることに限られた注意しか払われてきませんでした。本論文では、生成モデルの評価に適した形で既存のデータセットを改変し、文脈理解ベンチマークを導入します。このベンチマークは、モデルの文脈理解能力を評価するために設計されたプロンプトを特徴とする4つの異なるタスクと9つのデータセットで構成されています。まず、文脈内学習の事前学習シナリオにおけるLLMsの性能を評価します。実験結果から、事前学習された密なモデルは、最先端のファインチューニングされたモデルと比較して、より微妙な文脈的特徴を理解するのに苦労することが示されています。次に、LLMの圧縮が研究と実世界のアプリケーションの両方で重要性を増していることから、文脈内学習設定における量子化モデルの文脈理解を評価します。3ビットの学習後量子化は、我々のベンチマークにおいて様々な程度の性能低下を引き起こすことがわかりました。これらのシナリオについて広範な分析を行い、実験結果を裏付けます。
大規模言語モデルを改善するための人間のフィードバックを収集する際に、効率的な探索が大きな利益をもたらす証拠を提示します。私たちの実験では、エージェントが順次クエリを生成しながら、受け取ったフィードバックに基づいて報酬モデルを適合させます。最も性能の高いエージェントは、認識的不確実性を表す認識的ニューラルネットワークを用いたダブル・トンプソンサンプリングによってクエリを生成します。結果は、効率的な探索がはるかに少ないクエリ数で高い性能を実現することを示しています。さらに、不確実性の推定と探索スキームの選択の両方が重要な役割を果たしています。
私たちは、生成プロセスにおける概念学習とフロー管理に論理ベースのアプローチを採用した、汎用的でモジュール型のフレームワーク「SymbolicAI」を紹介します。SymbolicAIは、大規模言語モデル(LLM)を自然言語および形式言語の指示に基づいてタスクを実行するセマンティックパーサーとして扱うことで、生成モデルと多様なソルバーをシームレスに統合し、記号的推論と生成AIの間のギャップを埋めます。私たちは、複雑なタスクに取り組むために確率的プログラミングの原則を活用し、微分可能なプログラミングパラダイムと古典的プログラミングパラダイムをそれぞれの強みを活かして利用します。このフレームワークは、データストリーム操作のための多態的、合成的、自己言及的な操作セットを導入し、LLMの出力をユーザーの目的に合わせます。その結果、ゼロショットおよび少数ショット学習能力を備えた様々な基盤モデルの能力と、特定の問題に対処するための専門的で微調整されたモデルやソルバーとの間を移行することが可能になります。さらに、このフレームワークは説明可能な計算グラフの作成と評価を容易にします。最後に、これらの計算グラフを評価するための品質指標とその経験的スコアを紹介し、一連の複雑なワークフローにわたって様々な最先端のLLMを比較するベンチマークを提案します。私たちはこの経験的スコアを「Vector Embedding for Relational Trajectory Evaluation through Cross-similarity」、略してVERTEXスコアと呼びます。フレームワークのコードベースとベンチマークは以下にリンクされています。
機械学習の「忘却学習(Machine Unlearning)」は、厳格な規制に準拠するために、特定のモデルからデータサンプルを意図的に忘れる新しいパラダイムとして登場しました。しかし、既存の忘却学習手法は主に分類モデルに焦点を当てており、生成モデルにおける忘却学習の領域は比較的未開拓のままです。本論文はこのギャップを埋める架け橋として、画像から画像への生成モデルに対する忘却学習の統一的なフレームワークを提供します。このフレームワーク内で、我々は計算効率の良いアルゴリズムを提案し、厳密な理論分析に基づいて、保持サンプルにおける性能劣化を無視できるレベルに抑えつつ、忘却サンプルからの情報を効果的に除去することを実証します。ImageNet-1KとPlaces-365という2つの大規模データセットを用いた実証研究では、我々のアルゴリズムが保持サンプルの可用性に依存しないことも示されており、これはデータ保持ポリシーにさらに適合しています。我々の知る限り、本論文は画像から画像への生成モデルに特化した忘却学習の体系的、理論的、実証的探求を初めて提示するものです。コードはhttps://github.com/jpmorganchase/l2l-generator-unlearningで公開されています。
言語モデルを人間の好みに合わせるための一般的なアプローチは、まず選好データから報酬モデルを学習し、次にこの報酬モデルを使用して言語モデルを更新することです。本研究では、このアプローチにおいて生じる2つの密接に関連する問題を検討します。第一に、報酬モデルの単調変換は選好の順位を保持しますが、他の選択肢よりも「優れた」選択肢は存在するのでしょうか?第二に、言語モデルを複数の特性に合わせたい場合、複数の報酬モデルをどのように組み合わせるべきでしょうか?アライメント手順の確率的解釈を用いて、Bradley-Terry選好モデルから学習された報酬(一般的なケース)に対する自然な変換の選択を特定します。この導出された変換には2つの重要な特性があります。第一に、すでに高得点を獲得している出力ではなく、パフォーマンスの低い出力の改善を重視します。これにより、アンダーフィッティング(一部のプロンプトが改善されない)と報酬ハッキング(モデルが報酬モデルの誤指定を利用することを学習する)の両方を緩和します。第二に、論理積と合計を結びつけることで、報酬の原則に基づいた集約を可能にします。変換された報酬の合計は、出力が測定されたすべての特性において「良好」である確率に対応します。この意味を厳密に定義します。RLHFを使用して言語モデルを有用かつ無害に合わせる実験では、ベースライン(変換なし)のアプローチと比較して大幅な改善が示されました。
我々はAmortized Text-to-Mesh(AToM)を提案する。これは複数のテキストプロンプトを同時に最適化するフィードフォワード型のテキストtoメッシュフレームワークである。既存のテキストto 3D手法は、プロンプトごとに時間のかかる最適化を必要とし、ポリゴンメッシュ以外の表現を出力することが多いが、AToMは1秒未満で高品質なテクスチャ付きメッシュを直接生成し、トレーニングコストを約10分の1に削減し、未見のプロンプトにも一般化する。我々の鍵となるアイデアは、新しいトライプレーン型テキストtoメッシュアーキテクチャと、安定したトレーニングを保証しスケーラビリティを実現する2段階の償却最適化戦略である。様々なプロンプトベンチマークでの広範な実験を通じて、AToMは最先端の償却アプローチを大幅に上回り(DF415データセットで4倍以上の精度)、より識別可能で高品質な3D出力を生成する。AToMは強い一般化能力を示し、推論時に追加の最適化を必要とせず、未見の補間プロンプトに対して細粒度の3Dアセットを提供する。これはプロンプトごとのソリューションとは異なる特徴である。
本研究では、早期終了型大規模言語モデル(LLM)の学習/チューニングに対する軽量かつ経済的なソリューションであるEE-Tuningを紹介します。従来の全パラメータ事前学習のアプローチとは対照的に、EE-Tuningは、事前学習済み(かつ場合によってはファインチューニング済み)の標準LLMに、パラメータ効率の良い方法でチューニングされた追加の早期終了層を組み込みます。これにより、大幅に少ない計算リソースと学習データで済みます。EE-Tuningの実装は、広範なパフォーマンス最適化を通じて優れた学習効率を実現し、3D並列処理との完全な互換性によりスケーラビリティを確保しています。体系的な実験の結果はEE-Tuningの有効性を裏付けており、限られた学習予算で効果的な早期終了型LLM推論が可能であることを確認しています。早期終了型LLMをコミュニティに広く提供することを目指し、EE-Tuningの実装のソースコードをhttps://github.com/pan-x-c/EE-LLMで公開しています。