翻訳付きの日次キュレーションされたAI研究論文
私たちは、PaLM 2という新しい最先端の言語モデルを紹介します。PaLM 2は、前身のPaLMよりも優れた多言語対応能力と推論能力を持ち、計算効率も向上しています。PaLM 2は、Transformerベースのモデルであり、複数の目的を組み合わせて訓練されています。英語および多言語の言語タスクと推論タスクに関する広範な評価を通じて、PaLM 2がさまざまなモデルサイズにおいて下流タスクの品質を大幅に向上させ、同時にPaLMと比較してより高速で効率的な推論を示すことを実証しました。この効率性の向上により、より広範な展開が可能となり、モデルがより速く応答することで、より自然なペースでのインタラクションが実現されます。PaLM 2は、BIG-Benchやその他の推論タスクにおいてPaLMを大幅に上回る堅牢な推論能力を示しています。また、PaLM 2は、責任あるAI評価の一連のテストで安定した性能を発揮し、追加のオーバーヘッドや他の能力への影響なしに、推論時の毒性を制御することが可能です。全体として、PaLM 2は多様なタスクと能力において最先端の性能を達成しています。 PaLM 2ファミリーについて議論する際には、事前訓練済みモデル(さまざまなサイズ)、これらのモデルのファインチューニングバリアント、およびこれらのモデルを使用するユーザー向け製品を区別することが重要です。特に、ユーザー向け製品には通常、追加の前処理および後処理ステップが含まれます。さらに、基盤となるモデルは時間とともに進化する可能性があります。したがって、ユーザー向け製品の性能がこのレポートで報告された結果と完全に一致することを期待すべきではありません。
テキスト編集や推敲は、人間の執筆プロセスにおける重要な機能です。高品質な推敲を行い、人間の書き手と協働するための大規模言語モデル(LLM)の能力を理解することは、効果的な執筆アシスタントを構築するための重要なステップです。LLMと指示チューニングのこれまでの成功を踏まえ、私たちは指示チューニングされたLLMをテキスト推敲に活用し、ユーザー生成テキストの品質向上とプロセスの効率化を図ります。本論文では、執筆支援のための最先端のテキスト編集モデル「CoEdIT」を紹介します。CoEdITは、ユーザーから「文をよりシンプルにする」や「より中立的なスタイルで書く」といった望ましいテキストの属性を指定する指示を受け取り、編集されたテキストを出力します。私たちは、テキスト編集のための多様なタスク固有の指示(合計82Kの指示)に基づいてファインチューニングされた大規模言語モデルを提示します。私たちのモデルは、(1) 様々なテキスト編集ベンチマークで最先端の性能を達成し、(2) 指示に基づいてトレーニングされた公開されている最大規模のLLMと競争力がありながら、その60分の1のサイズであり、(3) 未見の編集指示に一般化する能力を持ち、(4) 異なる編集アクションの組み合わせを含む指示に一般化するための構成的理解能力を示します。詳細な定性的および定量的分析を通じて、書き手が他の最先端のテキスト編集モデルと比較してCoEdITが提案する編集を好むことを示します。私たちのコードとデータセットは公開されています。
人間のフィードバックからの学習は、言語モデルを人間の好みに合わせるのに効果的であることが示されています。過去の研究では、人間の選好データに基づいて訓練された報酬モデルから割り当てられた報酬スコアを用いて言語モデルを最適化する、人間のフィードバックからの強化学習(RLHF)がしばしば用いられてきました。本研究では、最近導入されたシーケンス尤度較正(SLiC)が、人間の選好から効果的に学習するためにも使用できること(SLiC-HF)を示します。さらに、オフポリシーやオフライン強化学習データと同様に、異なるモデル用に収集された人間のフィードバックデータを用いてこれが可能であることを実証します。TL;DR要約タスクにおける自動評価および人間による評価実験では、SLiC-HFが教師ありファインチューニングのベースラインを大幅に改善することが示されました。さらに、SLiC-HFは過去の研究で使用されたPPO RLHFの実装に匹敵する代替手段を提供しつつ、実装がはるかに簡潔で、チューニングが容易であり、実際の計算効率も高いことが明らかになりました。
事前学習データのドメイン(例:Wikipedia、書籍、ウェブテキスト)の混合比率は、言語モデル(LM)の性能に大きく影響します。本論文では、ドメイン再重み付けを最小最適化で行うDomain Reweighting with Minimax Optimization(DoReMi)を提案します。DoReMiはまず、下流タスクの知識なしに、ドメインに対するグループ分布ロバスト最適化(Group DRO)を用いて小さなプロキシモデルを訓練し、ドメインの重み(混合比率)を生成します。その後、これらのドメイン重みでデータセットを再サンプリングし、より大規模なフルサイズのモデルを訓練します。実験では、280MパラメータのプロキシモデルにDoReMiを適用し、8Bパラメータのモデル(30倍大規模)をより効率的に訓練するためのドメイン重みを見つけます。The Pileデータセットでは、DoReMiはドメインの重みを下げた場合でも、すべてのドメインでパープレキシティを改善します。DoReMiは、The Pileのデフォルトのドメイン重みで訓練されたベースラインモデルと比較して、平均的なfew-shot下流タスクの精度を6.5%向上させ、ベースラインの精度を2.6倍少ない訓練ステップで達成します。GLaMデータセットでは、下流タスクの知識を持たないDoReMiが、下流タスクで調整されたドメイン重みを使用した場合の性能に匹敵する結果を示します。
本論文では、マスク言語モデリング、自己蒸留、オンラインクラスタリングを組み合わせた自己教師あり音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを紹介する。これらの概念が互いに補完し合い、強力な音声表現学習モデルを実現することを示す。DinoSRはまず、教師ネットワークを用いて入力音声から文脈化された埋め込みを抽出し、次にその埋め込みに対してオンラインクラスタリングシステムを実行して機械発見的な音素インベントリを生成し、最後に離散化されたトークンを用いて学生ネットワークをガイドする。DinoSRが複数の下流タスクにおいて従来の最先端性能を上回ることを示し、モデルと学習された離散ユニットの詳細な分析を提供する。ソースコードは匿名期間終了後に公開される予定である。
単語使用の向上は、文章作成支援において望まれる機能である。この分野の研究をさらに進めるため、本論文では「Smart Word Suggestions」(SWS)タスクとベンチマークを紹介する。他の研究とは異なり、SWSはエンドツーエンドの評価を重視し、より現実的な文章作成支援のシナリオを提示する。このタスクでは、改善が必要な単語やフレーズを特定し、置換候補を提供することが求められる。ベンチマークには、テスト用の人間によるラベル付きデータ、トレーニング用の大規模な遠隔監視データセット、および評価のためのフレームワークが含まれる。テストデータには、英語学習者によって書かれた1,000の文と、10人のネイティブスピーカーによって注釈付けされた16,000以上の置換候補が含まれている。トレーニングデータセットは、ルールを通じて生成された370万以上の文と1,270万の候補で構成されている。7つのベースラインを用いた実験により、SWSが挑戦的なタスクであることが示された。実験分析に基づき、SWSに関する今後の研究の方向性を提案する。データセットと関連コードはhttps://github.com/microsoft/SmartWordSuggestionsで公開されている。
大規模言語モデル(LLM)は、多岐にわたるタスクにおいて驚異的な予測性能を発揮しています。しかし、その急速な普及とますます不透明化が進む中で、解釈可能性に対するニーズが高まっています。本論文では、ブラックボックステキストモジュールに対して自然言語による説明を自動的に得ることが可能かどうかを検討します。「テキストモジュール」とは、テキストをスカラー連続値にマッピングする任意の関数を指し、LLM内のサブモジュールや脳領域のフィットモデルなどが該当します。「ブラックボックス」とは、モジュールの入力と出力のみにアクセス可能であることを意味します。 本論文では、Summarize and Score(SASC)という手法を提案します。SASCはテキストモジュールを入力として受け取り、そのモジュールの選択性に関する自然言語による説明と、その説明の信頼性を示すスコアを返します。SASCを3つの文脈で検証しました。まず、合成モジュールに対してSASCを評価し、多くの場合に真の説明を復元できることを確認しました。次に、事前学習済みのBERTモデル内のモジュールを説明するためにSASCを使用し、モデルの内部を検査することを可能にしました。最後に、SASCが個々のfMRIボクセルの言語刺激に対する応答を説明できることを示し、微細な脳マッピングへの応用の可能性を提示しました。SASCの使用と結果の再現に必要なすべてのコードはGithubで公開されています。
オンデバイスの自動音声認識システムは、サーバーベースのシステムと比較していくつかの課題に直面しています。速度、ディスクサイズ、メモリに関してより厳しい制約を満たしながら、同じ精度を維持しなければなりません。多くの場合、仮想アシスタントとの通信や音声テキスト変換など、異なる分布を持つ複数のアプリケーションを同時に処理する必要があります。複数のアプリケーションに対応する最も単純な解決策は、アプリケーション固有の(言語)モデルを構築することですが、これによりメモリ使用量が増加します。そのため、私たちは単一のアプリケーション非依存モデルを構築するために、データ駆動型およびアーキテクチャ駆動型の言語モデリングアプローチを探求しています。異なるオンデバイス制約の間で最適なトレードオフを見つける2つの新しいフィードフォワードアーキテクチャを提案します。アプリケーション固有のソリューションと比較して、私たちの新しいアプローチの1つは、元のモデルの速度と精度を維持しながら、ディスクサイズを半分に削減します。
マルチビューステレオ(MVS)の核心は、参照ピクセルとソースピクセル間のマッチングプロセスにあります。このプロセスにおいて、コスト集約は重要な役割を果たしますが、従来の手法は主にCNNを用いてこれを処理することに焦点を当てていました。しかし、これはCNNの自然な制限、すなわち局所的な受容野の限界により、繰り返しパターンや誤ったマッチングを識別できないという問題を引き継ぐ可能性があります。この問題に対処するため、我々はTransformerをコスト集約に組み込むことを目指します。しかし、Transformerに起因する計算量の二次的な増加により、メモリオーバーフローや推論の遅延といった別の問題が発生する可能性があります。本論文では、これらの制限を克服するために、効率的なTransformerベースのコスト集約ネットワーク、すなわちCostFormerを提案します。Residual Depth-Aware Cost Transformer(RDACT)は、深度および空間次元に沿った自己注意メカニズムを介してコストボリューム上の長距離特徴を集約するために提案されました。さらに、Residual Regression Transformer(RRT)は、空間的注意を強化するために提案されました。提案手法は、学習ベースのMVS手法を改善するための汎用的なプラグインとして機能します。
大規模な多言語言語モデルは、典型的なニューラル翻訳システムに意図的に提供される翻訳例を一度も見たことがないにもかかわらず、驚くほど優れたゼロショットまたは少数ショットの機械翻訳能力を示します。本研究では、大規模言語モデルの翻訳能力を説明するために、偶発的な二言語性(翻訳例を含む二言語信号の意図せぬ摂取)の役割を、Pathways Language Model(PaLM)をケーススタディとして調査します。大規模な偶発的二言語性を測定し理解するための混合手法を導入します。PaLMが少なくとも44言語にわたって3000万以上の翻訳ペアにさらされていることを示します。さらに、非英語言語における偶発的二言語コンテンツの量は、その言語の単一言語コンテンツの量と高い相関関係にあります。偶発的二言語コンテンツをゼロショットプロンプトに関連付け、PaLMの英語からのゼロショット翻訳品質を向上させるための新しいプロンプトをマイニングするために使用できることを示します。最後に、一連の小規模なアブレーション実験を通じて、偶発的二言語性の存在が翻訳能力に大きな影響を与えるものの、その影響はモデル規模が大きくなるにつれて減少することを示します。
複数の大規模言語モデル(LLM)が、交渉ゲームを通じてプレイ、反省、批評を行うことで、互いに自律的に改善できるかどうかを研究します。この問いに興味を持つ理由は、LLMが互いに改善できるのであれば、人間の介入を最小限に抑えた強力なAIエージェントを作成する可能性が示唆されるためです。2つのLLMに買い手と売り手の役割をそれぞれ割り当て、交渉を行わせます。彼らの目標は、買い手がより低い価格を、売り手がより高い価格を目指して取引を成立させることです。批評家役の第三の言語モデルは、プレイヤーの交渉戦略を改善するためのフィードバックを提供します。2つのエージェントに複数ラウンドをプレイさせ、以前の交渉履歴とAIからのフィードバックを文脈内のデモンストレーションとして使用し、モデルの交渉戦略を反復的に改善させます。異なる役割には異なるLLM(GPTとClaude)を使用し、取引価格を評価指標とします。実験からは、以下のような興味深い知見が得られました:(1)検討した言語モデルのうち、一部のモデルのみが自己プレイを通じてAIフィードバックから取引価格を改善でき、弱いモデルはゲームのルールを理解できないか、AIフィードバックを取り入れてさらに改善することができません。(2)モデルがフィードバックから学ぶ能力は、異なる役割を演じる際に異なります。例えば、Claude-instantは買い手としてよりも売り手としての方が改善しにくいです。(3)ゲームを複数ラウンドに展開すると、強力なエージェントは以前の経験と反復的なAIフィードバックを有意義に活用して一貫してパフォーマンスを向上させることができますが、取引が破綻するリスクも高くなります。本研究が、ゲームプレイとAIフィードバックを通じてモデルが互いに自律的に改善するための洞察に富んだ初期の探求となることを期待しています。
細粒度分類は、同一カテゴリ内のオブジェクト間の微妙な差異を識別するという困難なタスクです。このタスクは、特にデータが不足しているシナリオにおいて非常に困難です。視覚トランスフォーマー(ViT)は、自己注意機構を用いて視覚データの高度に表現力のある表現を学習する能力により、最近画像分類の強力なツールとして登場しました。本研究では、注釈付きデータが不足している状況に適した、半教師あり学習技術を用いてファインチューニングされたViTモデルであるSemi-ViTを探求します。これは特に電子商取引において一般的で、画像は容易に入手可能ですが、ラベルはノイズが多い、存在しない、または取得にコストがかかる場合があります。我々の結果は、Semi-ViTが、限られた注釈付きデータでファインチューニングされた場合でも、従来の畳み込みニューラルネットワーク(CNN)やViTを上回ることを示しています。これらの発見は、Semi-ViTが視覚データの精密かつ細粒度の分類を必要とするアプリケーションにおいて大きな可能性を秘めていることを示唆しています。
本研究成果は、IEEE International Conference on Robotics and Automation 2023の「Unconventional Spatial Representations」ワークショップで発表されました。 ニューラルラジアンスフィールド(NeRF)は、カラー画像から3D環境をモデル化する暗黙的なシーン表現の一種です。NeRFは表現力が高く、現実世界の複雑で多様なスケールの幾何学をモデル化できるため、ロボティクスアプリケーションにおいて強力なツールとなる可能性があります。現代のNeRFトレーニングライブラリは、静的なデータセットからフォトリアルなNeRFをわずか数秒で生成できますが、オフライン使用を前提としており、遅いポーズ最適化の事前計算ステップを必要とします。 本研究では、Robot Operating System(ROS)と人気のNerfstudioライブラリを接続するオープンソースのブリッジ「NerfBridge」を提案します。NerfBridgeは、画像ストリームからのリアルタイムかつオンラインでのNeRFトレーニングを可能にします。NerfBridgeは、Nerfstudioが提供する効率的なトレーニングパイプラインとモデルライブラリへの拡張可能なインターフェースを提供することで、ロボティクスにおけるNeRFの応用研究の迅速な開発を支援します。使用例として、クアッドローターに搭載されたカメラで撮影された画像から、屋内および屋外環境でNeRFをトレーニングするためのハードウェアセットアップを概説します。 関連動画はhttps://youtu.be/EH0SLn-RcDg、コードはhttps://github.com/javieryu/nerf_bridgeをご覧ください。
広告やストーリービデオなどのマルチメディアコンテンツは、創造性と複数のモダリティが豊かに融合したものです。これらは、テキスト、視覚要素、音声、ストーリーテリング技術などの要素を取り入れ、感情、象徴、スローガンなどの手法を用いて意味を伝えます。これまでのマルチメディア理解の研究は、料理のような特定のアクションを含むビデオに主に焦点を当ててきましたが、大規模な注釈付きトレーニングデータセットの不足により、実世界のアプリケーションで満足のいく性能を発揮する教師あり学習モデルの開発が妨げられてきました。しかし、大規模言語モデル(LLM)の台頭により、感情分類、質問応答、トピック分類などのさまざまな自然言語処理(NLP)タスクで驚異的なゼロショット性能が実証されています。マルチメディア理解におけるこの性能ギャップを埋めるために、私たちはストーリービデオを言語化して自然言語でその説明を生成し、元のビデオではなく生成されたストーリーに対してビデオ理解タスクを実行することを提案します。5つのビデオ理解タスクに関する広範な実験を通じて、私たちの方法がゼロショットであるにもかかわらず、ビデオ理解のための教師ありベースラインよりも大幅に優れた結果を達成することを実証します。さらに、ストーリー理解のベンチマークの不足を緩和するために、計算社会科学における重要なタスクである説得戦略識別に関する最初のデータセットを公開します。