翻訳付きの日次キュレーションされたAI研究論文
近年の研究では、大規模基盤モデル(LFM)が生成する出力を活用した模倣学習を通じて、より小規模なモデルの能力を向上させることに焦点が当てられてきた。これらのモデルの品質には、浅いLFM出力からの限定的な模倣信号、小規模で均質なトレーニングデータ、そして特に厳密な評価の欠如による小規模モデルの能力過大評価といった多くの課題が影響している。小規模モデルはLFMのスタイルを模倣する傾向があるが、その推論プロセスを模倣することはない。これらの課題に対処するため、我々はOrca(LLaMAの公開ポリシーに従ってモデル重みの差分を公開するために法務チームと協力中、詳細はhttps://aka.ms/orca-lmにて公開予定)を開発した。Orcaは13億パラメータのモデルであり、LFMの推論プロセスを模倣することを学習する。Orcaは、ChatGPTからの教師アシスタンスに導かれ、GPT-4からの説明トレース、段階的な思考プロセス、その他の複雑な指示を含む豊富な信号から学習する。この漸進的な学習を促進するために、大規模で多様な模倣データを慎重なサンプリングと選択によって活用する。Orcaは、Big-Bench Hard(BBH)のような複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bなどの従来の最先端の指示調整モデルを100%以上上回り、AGIEvalでは42%の性能向上を示す。さらに、OrcaはBBHベンチマークにおいてChatGPTと同等の性能を達成し、SAT、LSAT、GRE、GMATなどの専門的および学術的な試験において、CoTなしのゼロショット設定で競争力のある性能(最適化されたシステムメッセージとの4ポイント差)を示すが、GPT-4には及ばない。我々の研究は、人間またはより高度なAIモデルによって生成された段階的な説明から学習することが、モデルの能力とスキルを向上させるための有望な方向性であることを示唆している。
大規模言語モデルは通常、フィルタリングされたウェブデータと、ソーシャルメディアの会話、書籍、技術論文などのキュレーションされた高品質コーパスの混合で訓練されます。このキュレーションプロセスは、幅広いゼロショット汎化能力を持つ高性能なモデルを生成するために必要であると考えられています。しかし、数兆トークンの事前学習を必要とするより大規模なモデルが検討されるにつれ、キュレーションのスケーラビリティや、近い将来にユニークな高品質データが枯渇するかどうかは不明です。これまでの通説とは異なり、適切にフィルタリングされ重複排除されたウェブデータのみでも強力なモデルを生成できることを示します。さらに、The Pileで訓練された最先端のモデルを大幅に上回る性能を発揮します。広範なフィルタリングにもかかわらず、ウェブから抽出した高品質データは依然として豊富であり、CommonCrawlから5兆トークンを取得することが可能です。私たちは、RefinedWebデータセットから抽出した6000億トークンのサンプルと、それに基づいて訓練された1.3B/7.5Bパラメータの言語モデルを公開します。
最近登場したSegment Anything Model(SAM)は、セグメンテーションモデルのスケールアップにおいて大きな飛躍を遂げ、強力なゼロショット能力と柔軟なプロンプティングを可能にしました。11億のマスクで学習されたにもかかわらず、SAMのマスク予測品質は多くの場合、特に複雑な構造を持つオブジェクトを扱う際に不十分です。本論文では、HQ-SAMを提案し、SAMに正確に任意のオブジェクトをセグメント化する能力を付与しながら、SAMの元のプロンプト可能な設計、効率性、ゼロショット汎用性を維持します。我々の慎重な設計は、SAMの事前学習済みモデル重みを再利用し保存しつつ、最小限の追加パラメータと計算のみを導入します。我々は、学習可能な高品質出力トークンを設計し、これをSAMのマスクデコーダに注入して、高品質マスクの予測を担当させます。マスクデコーダの特徴量にのみ適用するのではなく、まずそれらを初期および最終のViT特徴量と融合させ、マスクの詳細を改善します。導入した学習可能なパラメータを訓練するために、複数のソースから44,000の細粒度マスクのデータセットを構成しました。HQ-SAMは、導入した44,000マスクのデータセットでのみ訓練され、8GPUでわずか4時間しかかかりません。我々は、異なる下流タスクにわたる9つの多様なセグメンテーションデータセットにおいてHQ-SAMの有効性を示し、そのうち7つはゼロショット転移プロトコルで評価されます。我々のコードとモデルはhttps://github.com/SysCV/SAM-HQで公開されます。
我々はLLM-Blenderを提案する。これは、複数のオープンソース大規模言語モデル(LLM)の多様な強みを活用し、一貫して優れた性能を実現するためのアンサンブルフレームワークである。本フレームワークは、異なる事例に対して最適なLLMが大きく異なるという観察に対処するため、PairRankerとGenFuserの2つのモジュールで構成されている。PairRankerは、候補出力間の微妙な差異を識別するために特別に設計されたペアワイズ比較手法を採用する。入力テキストと候補ペアを共同でエンコードし、クロスアテンションエンコーダーを用いて優れた候補を決定する。我々の結果は、PairRankerがChatGPTベースのランキングと最も高い相関を示すことを実証している。次に、GenFuserは、トップランクの候補を統合し、それらの強みを活かし弱点を軽減することで、改善された出力を生成することを目指す。大規模な評価を容易にするため、オラクルペアワイズ比較を特徴とする複数の指示データセットを混合したベンチマークデータセットMixInstructを導入した。我々のLLM-Blenderは、様々な指標において個々のLLMやベースライン手法を大幅に上回り、大きな性能差を確立している。
大規模言語モデル(LLMs)は指示に従う性質を持っていますが、特にバックプロパゲーションが禁止されているブラックボックスLLMにおいて、異なる状況に最適な指示を見つけることは困難です。離散的な指示を直接最適化する代わりに、オープンソースのLLMに適用される低次元のソフトプロンプトを最適化し、ブラックボックスLLMのための指示を生成します。提案手法であるInstructZeroの各イテレーションでは、ソフトプロンプトがオープンソースLLMを使用して指示に変換され、その後ブラックボックスLLMに送信されてゼロショット評価が行われ、そのパフォーマンスがベイズ最適化に送られてゼロショット性能を向上させる新しいソフトプロンプトが生成されます。InstructZeroを、VicunaやChatGPTを含むさまざまなオープンソースLLMとAPIの組み合わせで評価しました。その結果、InstructZeroは多様な下流タスクにおいて、最先端の自動指示生成手法を上回る性能を示しました。コードとデータはhttps://github.com/Lichang-Chen/InstructZeroで公開されています。
言語モデル(LM)は、誤った、有害な、または無関係な出力を生成するなど、望ましくないテキスト生成行動を示すことが多い。人間のフィードバックからの強化学習(RLHF)——LMの出力に対する人間の選好判断を学習信号に変換する手法——は、最近これらの問題に対処する可能性を示している。しかし、このような包括的なフィードバックは、長文の出力に関して限られた情報しか伝えず、出力のどの側面がユーザーの選好に影響を与えたか(例えば、どの部分にどの種類の誤りが含まれているか)を示さない。本論文では、細粒度の人間のフィードバック(例えば、どの文が誤っているか、どの部分文が無関係か)を明示的な学習信号として使用する。我々は、Fine-Grained RLHFというフレームワークを導入し、以下の2点において細粒度な報酬関数からの学習を可能にする:(1) 密度——各セグメント(例えば、文)が生成されるごとに報酬を提供する;(2) 複数の報酬モデルを組み込む——異なるフィードバックタイプ(例えば、事実誤認、無関係性、情報の不完全性)に関連する。我々は、解毒化と長文質問応答の実験を行い、このような報酬関数を用いた学習が、自動評価と人間評価の両方によって裏付けられた性能向上につながることを示す。さらに、異なる細粒度報酬モデルの組み合わせを使用してLMの行動をカスタマイズできることを示す。我々は、すべてのデータ、収集した人間のフィードバック、およびコードをhttps://FineGrainedRLHF.github.ioで公開している。
差分プライバシー(DP)を保証する訓練手法、例えばDP-SGDは、機械学習モデルが機密情報を漏洩しないようにすることで、センシティブな訓練データを保護することができます。本論文が検討する別のアプローチは、センシティブなデータセットを使用して、元のデータに対して差分プライバシーを保証する新しい合成データセットを生成する方法です。これにはいくつかの利点があります:合成データは他のタスク(ハイパーパラメータチューニングを含む)に再利用可能で、無期限に保持したり、プライバシーを損なうことなく第三者と共有することができます。 しかし、DPデータを取得することは、訓練中にDPを導入するよりもはるかに困難です。テキストデータに対してこれを実現するため、最近の研究では、事前訓練された生成言語モデルを出発点として、センシティブなデータに対してプライベートにファインチューニングする方法が採用されています。このモデルを使用してDP合成データセットをサンプリングすることができます。この戦略は一見単純に見えますが、実行する際に問題が生じることが判明しています。従来のアプローチでは、性能が大幅に低下するか、本論文で示すように重大な設計上の欠陥が存在します。 本論文では、適切な訓練目標と、より少ないパラメータのチューニングによって、優れたDP合成データの品質が得られることを実証します。我々のアプローチは、下流タスクにおける性能において、下流分類器の直接的なDP訓練と競合します。また、我々のDP合成データが下流分類器の訓練だけでなく、同じモデルのチューニングにも有用であることも示します。
最近リリースされたChatGPTモデルは、ゼロショット質問応答において前例のない能力を発揮しています。本研究では、ChatGPTの会話理解能力を探り、今後の研究で採用可能な会話フレームワーク(プロトコル)を導入します。ポケモン世界は、その閉じた世界仮定のため、ChatGPTの推論能力を監査する理想的なテスト環境として機能します。ChatGPTの(ポケモン世界に関する)背景知識を明らかにした後、バトルシナリオでこれらの概念を使用する際の推論プロセスをテストします。次に、新しい知識を獲得し、それを推論プロセスに組み込む能力を評価します。私たちの最終的な目標は、ChatGPTが一般化し、特徴を組み合わせ、人間のフィードバックから新たに導入された知識を獲得し、それについて推論する能力を評価することです。ChatGPTはポケモン世界に関する事前知識を持っており、新しい情報が導入された場合でも、バトルシナリオにおいてかなりの程度まで推論できることがわかりました。このモデルは、協力的なフィードバックと情報検索の初期段階がある場合にパフォーマンスが向上しますが、時々幻覚を起こし、敵対的攻撃に対して脆弱でもあります。
大規模言語モデル(LLM)を評価する標準的な方法論は、入力と出力の静的なペアに基づいており、アシスタントの開発には不十分です。この種の評価は、デプロイメントにおける重要なインタラクティブな要素を考慮しておらず、言語モデルの能力を理解する上で制限をかけています。本論文では、CheckMateを紹介します。これは、人間がLLMとインタラクションし、評価するための適応可能なプロトタイププラットフォームです。CheckMateを用いて、InstructGPT、ChatGPT、GPT-4という3つの言語モデルを、学部レベルの数学証明におけるアシスタントとして評価する研究を実施しました。参加者は、学部生から数学教授まで多様な背景を持つ人々で構成されています。この研究から得られたインタラクションと評価データセットであるMathConverseを公開します。MathConverseを分析することで、人間の行動の予備的な分類体系を導き出し、一般的には正の相関が見られるものの、LLMの生成において正確性と知覚された有用性の間に顕著な乖離が存在する事例を明らかにしました。さらに、専門の数学者による一連のケーススタディを通じて、GPT-4の数学的推論における有用なシナリオと既存の問題を特定しました。最後に、ML実務者と数学者にとっての実践的な提言をまとめます。不確実性を伝え、ユーザーの修正にうまく対応し、より解釈可能で簡潔なモデルは、より優れたアシスタントを構成する可能性があります。インタラクティブな評価は、これらのモデルの能力を継続的に探るための有望な方法です。人間は、言語モデルの代数的誤りを認識し、それゆえにどこで使用すべきかを判断する必要があります。
大規模言語モデル(LLMs)の最近の成功は、人工汎用知能に向けた印象的な進歩を示しています。これらは、ユーザーの指示に基づいてタスクを自動的に完了する有望な可能性を示し、脳のようなコーディネーターとして機能しています。しかし、私たちがますます多くのタスクを機械に委任して自動化するにつれて、関連するリスクが明らかになるでしょう。大きな疑問が浮上します:パーソナルコパイロットとして人間のタスク自動化を支援する際に、機械が責任ある行動をとるようにするにはどうすればよいでしょうか?本論文では、この疑問を実現可能性、完全性、セキュリティの観点から深く探求します。具体的には、責任あるタスク自動化(ResponsibleTA)を基本的なフレームワークとして提示し、LLMベースのコーディネーターとエグゼキューターの間で責任ある協力を促進するための3つの強化された能力を提供します:1)エグゼキューターに対するコマンドの実現可能性を予測する、2)エグゼキューターの完全性を検証する、3)セキュリティ(例:ユーザーのプライバシー保護)を強化する。さらに、最初の2つの能力を実装するための2つのパラダイムを提案し、比較します。1つはプロンプトエンジニアリングを介してLLMs自体の汎用知識を活用する方法、もう1つはドメイン固有の学習可能なモデルを採用する方法です。また、3番目の能力を達成するためのローカルメモリメカニズムを導入します。提案したResponsibleTAをUIタスク自動化で評価し、多様なシナリオでLLMsがより責任ある行動をとることを確保するためのさらなる注目を集めることを期待しています。研究プロジェクトのホームページはhttps://task-automation-research.github.io/responsible_task_automationにあります。
パノプティック、セマンティック、インスタンスセグメンテーションタスク間の密接な関係を観察し、我々はユニバーサルなマルチデータセット・マルチタスクセグメンテーションモデル「DaTaSeg」を提案する。全てのタスクに対して共有表現(クラス予測付きマスク提案)を使用する。タスク間の差異に対処するため、異なるタスクに対して異なるマージ操作と後処理を採用する。また、弱教師あり学習を活用し、セグメンテーションモデルがより安価なバウンディングボックスアノテーションから恩恵を受けられるようにする。データセット間で知識を共有するため、同じセマンティック埋め込み空間からのテキスト埋め込みを分類器として使用し、全てのネットワークパラメータをデータセット間で共有する。DaTaSegをADEセマンティック、COCOパノプティック、Objects365検出データセットで学習させる。DaTaSegは全てのデータセット、特に小規模データセットにおいて性能を向上させ、ADEセマンティックで54.0 mIoU、COCOパノプティックで53.5 PQを達成する。DaTaSegはまた、ADEパノプティックとObjects365インスタンスセグメンテーションにおいて弱教師あり知識転移を可能にする。実験により、DaTaSegが学習データセットの数に応じてスケールし、直接転移を通じてオープンボキャブラリーセグメンテーションを可能にすることが示される。さらに、我々はObjects365インスタンスセグメンテーション用の1,000枚の画像セットにアノテーションを施し、公開ベンチマークとしてリリースする予定である。
大規模言語モデル(LLM)を数学的問題の解決に活用することは、自然科学や工学の幅広い分野において自然言語で表現された数学的問題が豊富に存在することを考慮すると、非常に興味深い研究テーマです。これまでの研究では、LLMを用いた初等数学の解法がいくつか検討されてきましたが、本研究ではGPT-4を活用してより複雑で難易度の高い数学的問題を解くという新たな領域を探求します。我々はGPT-4の様々な活用方法を評価し、その中には既存の研究から適応したものもあれば、本研究で新たに提案した対話型問題解決フレームワークである\MathChatも含まれます。評価はMATHデータセットの難易度の高い高校数学コンテスト問題を用いて行われ、提案された対話型アプローチの優位性が示されました。
Transformerベースの言語モデルは、ますます長いシーケンスを処理する必要がある多様なアプリケーションで活用されています。これらのアプリケーションにおいて、シーケンス長に対して二次的にスケーリングする唯一のコンポーネントである因果的セルフアテンションが中心的な課題となっています。多くの研究がアテンションパターンをスパース化し、セルフアテンションの計算オーバーヘッドを削減する手法を提案していますが、それらは実装上の制約により、アテンションマトリックスに単純で静的な構造を課すことが多いです。一方、より動的なスパースアテンションを実装すると、Daoら(2022)のFlash実装を使用して完全なアテンションを計算するよりも、実行時間が大幅に遅くなることがよくあります。本研究では、FlashAttentionを拡張し、特にキー/クエリのドロップやハッシュベースのアテンションを含む、幅広いアテンションのスパースパターンをサポートします。これにより、計算量のオーバーヘッドなしに実装が可能となり、FlashAttentionを上回る複数倍の実行速度向上を実現します。比較的低いスパース度であっても、シーケンス長が増加するにつれて、本手法はFlashAttentionを目に見えて改善します。パープレキシティを犠牲にすることなく、Transformer言語モデルのトレーニング速度を、それぞれ8kおよび16kトークンのシーケンスに対して2.0倍および3.3倍向上させました。
大規模言語モデルに関する現状評価を行い、それと比較して検索拡張型言語モデルの可能性を検証します。このような言語モデルは半パラメトリックであり、従来のパラメトリックな大規模言語モデルとは異なり、モデルパラメータと外部データソースからの知識を統合して予測を行います。初期の実験結果から、半パラメトリックアーキテクチャはビュー、クエリアナライザ/プランナー、およびプロバナンスを組み合わせることで、質問応答タスクにおける精度と効率の両面で大幅に強力なシステムを構築できる可能性があり、他の自然言語処理タスクにも応用できることが示唆されています。