翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の最近の進展は、自然言語理解と生成タスクにおいて大きな能力を示しています。LLMの数が増えるにつれ、複数のLLMの集合的な専門知識をどのように活用するかは、興味深い未開拓の方向性です。この目標に向けて、我々はMixture-of-Agents(MoA)メソドロジーを通じて複数のLLMの集合的な強みを活用する新しいアプローチを提案します。我々のアプローチでは、各層が複数のLLMエージェントで構成される階層型MoAアーキテクチャを構築します。各エージェントは、前の層のエージェントからの全ての出力を補助情報として利用し、自身の応答を生成します。MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKにおいて、GPT-4 Omniを上回る最先端の性能を達成しています。例えば、オープンソースのLLMのみを使用した我々のMoAは、AlpacaEval 2.0のリーダーであり、GPT-4 Omniの57.5%に対して65.1%のスコアを達成し、大きな差をつけています。
検索拡張生成(Retrieval-Augmented Generation, RAG)は、大規模言語モデル(LLM)の知識不足を緩和する有望な解決策として最近注目を集めています。しかし、既存のRAGデータセットは、現実世界の質問応答(QA)タスクの多様性と動的な性質を十分に反映していません。このギャップを埋めるため、私たちは包括的RAGベンチマーク(Comprehensive RAG Benchmark, CRAG)を導入しました。これは、4,409の質問-回答ペアと、ウェブおよび知識グラフ(KG)検索をシミュレートするモックAPIからなる事実ベースの質問応答ベンチマークです。CRAGは、5つのドメインと8つの質問カテゴリーにわたる多様な質問を網羅し、人気からロングテールまでのエンティティの人気度、および年単位から秒単位までの時間的ダイナミズムを反映するように設計されています。このベンチマークでの評価は、完全に信頼できるQAへのギャップを浮き彫りにしています。最先端のLLMのほとんどはCRAGで34%以下の精度しか達成できず、RAGを単純に追加しても精度は44%にしか向上しませんでした。業界最先端のRAGソリューションでも、幻覚(hallucination)なしで回答できるのは63%の質問のみでした。CRAGはまた、ダイナミズムが高い、人気度が低い、または複雑度が高い事実に関する質問の精度が大幅に低いことを明らかにし、今後の研究の方向性を示唆しています。CRAGベンチマークは、KDD Cup 2024チャレンジの基盤となり、競技開始から50日以内に数千人の参加者と提出物を集めました。私たちは、RAGソリューションおよび一般的なQAソリューションの進展に貢献するため、CRAGを維持し続けることを約束します。
私たちは、WildBenchという自動評価フレームワークを紹介します。これは、挑戦的で現実世界のユーザークエリを用いて大規模言語モデル(LLMs)をベンチマークするために設計されています。WildBenchは、100万件以上の人間とチャットボットの会話ログから慎重に選ばれた1,024のタスクで構成されています。WildBenchを用いた自動評価のために、GPT-4-turboのような高度なLLMsを使用して計算可能な2つの指標、WB-RewardとWB-Scoreを開発しました。WildBenchの評価では、タスク固有のチェックリストを使用してモデルの出力を体系的に評価し、スコアと比較を正当化する構造化された説明を提供することで、より信頼性が高く解釈可能な自動判断を実現しています。WB-Rewardは、モデルの応答間の細かいペアワイズ比較を行い、5つの潜在的な結果を生成します:はるかに優れている、わずかに優れている、わずかに劣っている、はるかに劣っている、または引き分け。従来の評価が単一のベースラインモデルを使用していたのとは異なり、私たちは異なる性能レベルを持つ3つのベースラインモデルを選択し、包括的なペアワイズ評価を確保しました。さらに、勝者の応答が敗者の応答をK文字以上上回る場合、「わずかに優れている/劣っている」の結果を「引き分け」に変換することで、長さのバイアスを軽減する簡単な方法を提案します。WB-Scoreは、モデルの出力の品質を個別に評価するため、迅速でコスト効率の高い評価指標です。WildBenchの結果は、難しいタスクにおけるChatbot Arenaの人間による投票Eloレーティングと強い相関を示しています。具体的には、WB-Rewardはトップランクのモデルに対して0.98のピアソン相関を達成しています。さらに、WB-Scoreは0.95に達し、長さ制御された勝率におけるArenaHardの0.91とAlpacaEval2.0の0.89、および通常の勝率における0.87を上回っています。
生成AIは、画像や動画生成などの分野において革命的な進歩を遂げてきました。これらの進歩は、革新的なアルゴリズム、アーキテクチャ、データによって推進されています。しかし、生成モデルの急速な普及により、信頼できる評価指標の欠如という重大なギャップが浮き彫りになりました。現在の自動評価指標(FID、CLIP、FVDなど)は、生成出力の微妙な品質やユーザー満足度を捉えることができないことが多いです。本論文では、異なる画像および動画生成モデルを評価するためのオープンプラットフォーム「GenAI-Arena」を提案します。このプラットフォームでは、ユーザーが積極的にモデル評価に参加できます。GenAI-Arenaは、ユーザーのフィードバックと投票を活用することで、より民主的で正確なモデル性能の測定を目指しています。テキストから画像生成、テキストから動画生成、画像編集の3つのアリーナをカバーしており、現在合計27のオープンソース生成モデルを対象としています。GenAI-Arenaは4ヶ月間運営され、コミュニティから6000以上の投票を集めました。本論文では、プラットフォームの説明、データの分析、モデルをランク付けするための統計手法を解説します。さらに、モデルベースの評価指標の研究を促進するため、3つのタスクに対する選好データのクリーン版「GenAI-Bench」を公開します。既存のマルチモーダルモデル(Gemini、GPT-4oなど)に人間の投票を模倣するよう促し、モデルの投票と人間の投票の相関を計算して、それらの判断能力を理解します。結果として、既存のマルチモーダルモデルは生成された視覚コンテンツの評価において依然として遅れを取っており、最良のモデルであるGPT-4oでさえ、品質サブスコアでピアソン相関0.22しか達成できず、他の項目ではランダムな推測に近い振る舞いを示しました。
モデルの応答に対する不確実性や信頼度を推定することは、単に応答に対する信頼だけでなく、モデル全体に対する信頼を評価する上で重要です。本論文では、ブラックボックスまたはクエリアクセスのみが可能な大規模言語モデル(LLM)の応答に対する信頼度を推定する問題を探求します。我々は、新規の特徴量を設計し、これらの特徴量に基づいて(解釈可能な)モデル(具体的にはロジスティック回帰)を訓練することで信頼度を推定する、シンプルで拡張可能なフレームワークを提案します。実験的に、このシンプルなフレームワークがflan-ul2、llama-13b、mistral-7bの信頼度推定において有効であり、TriviaQA、SQuAD、CoQA、Natural Questionsなどのベンチマークデータセットにおいて、既存のブラックボックス信頼度推定手法を最大10%以上(AUROCにおいて)上回ることを実証します。さらに、我々の解釈可能なアプローチは、信頼度を予測する特徴量に関する洞察を提供し、あるLLM向けに構築した信頼度モデルが、特定のデータセットにおいて他のLLMに対してゼロショットで一般化するという興味深く有用な発見をもたらします。
大規模言語モデル(LLMs)の驚異的な能力は、ユーザーのタイピング体験を再構築するための強力なアプローチを提供します。本論文では、GboardのサーバーサイドLLMによって駆動される新機能「Proofread」を紹介します。この機能は、ワンタップでシームレスな文レベルおよび段落レベルの修正を可能にします。本論文では、データ生成、メトリクス設計、モデルチューニング、デプロイメントに至るまでの完全なシステムを説明します。十分な品質を持つモデルを獲得するために、オンライン使用ケースに特化した慎重なデータ合成パイプラインを実装し、多面的なメトリクスを設計し、2段階のチューニングアプローチを採用して、この機能専用のLLMを獲得します。具体的には、基礎的な品質を確保するための教師あり微調整(SFT)と、ターゲットを絞った改善を行うための強化学習(RL)チューニングアプローチを採用します。特に、SFT段階では、RewriteとProofreadタスクを順次チューニングすることが最高の品質をもたらすことを発見し、RLチューニング段階では、さらなる改善を図るためにグローバルおよびダイレクトな報酬を提案します。人間がラベル付けしたゴールデンセットでの大規模な実験により、チューニングされたPaLM2-XSモデルが85.56%の良好率を達成したことが示されました。この機能は、Google CloudのTPU v5上でモデルを提供することでPixel 8デバイスにリリースされ、数千の日次アクティブユーザーを獲得しました。量子化、バケット推論、テキストセグメンテーション、および投機的デコードにより、サービングレイテンシーが大幅に削減されました。デモはhttps://youtu.be/4ZdcuiwFU7I{Youtube}でご覧いただけます。
私たちは、自然言語における現実的な計画立案ベンチマーク「NATURAL PLAN」を紹介します。このベンチマークは、旅行計画、会議計画、カレンダースケジューリングという3つの主要なタスクを含んでいます。評価では、Google Flights、Google Maps、Google Calendarなどのツールからの出力をモデルへのコンテキストとして提供し、タスクに関する完全な情報を持つ大規模言語モデル(LLM)の計画立案能力に焦点を当てています。これにより、計画立案におけるLLMの評価のためにツール使用環境を必要としなくなります。私たちは、NATURAL PLANが最先端のモデルにとって挑戦的なベンチマークであることを観察しました。例えば、旅行計画において、GPT-4とGemini 1.5 Proはそれぞれ31.1%と34.8%の解決率しか達成できませんでした。問題の複雑さが増すにつれてモデルの性能が急激に低下することも明らかになりました。10都市の場合、すべてのモデルの性能は5%未満であり、自然言語における計画立案において最先端のLLMに大きなギャップがあることが浮き彫りになりました。さらに、NATURAL PLANにおいて、自己修正、少数ショット汎化、長文脈を用いたインコンテキスト計画立案といったアプローチの(非)有効性を明らかにするために、広範なアブレーションスタディも実施しました。
スケーリングによる先進的AIシステムの予測可能な振る舞いは、極めて望ましい特性である。事前学習の性能がどのようにスケールするかについては確立された文献が存在するが、特定の下流タスク能力がどのようにスケールするかに関する文献ははるかに曖昧である。本研究では、一歩引いて次の問いを立てる:なぜスケールに伴う特定の下流タスク能力の予測は困難なままなのか?多くの要因が確かに関与しているが、我々は広く使われている多肢選択問題解答ベンチマークにおけるスケーリング挙動のモデリングを困難にする新たな要因を特定した。5つのモデルファミリーと12の確立された多肢選択ベンチマークを用いて、下流タスクの性能が負の対数尤度から一連の変換を経て計算されること、そしてこれらの変換が性能とスケールの間の統計的関係を徐々に劣化させることを示した。さらに、この劣化を引き起こすメカニズムを明らかにした:下流タスクの評価指標は正解選択肢と少数の特定の不正解選択肢を比較する必要があるため、下流タスク能力を正確に予測するには、スケールに伴って確率質量が正解選択肢に集中するだけでなく、特定の不正解選択肢上の確率質量がどのように変動するかを予測する必要がある。我々は、計算量の増加に伴い正解選択肢と不正解選択肢上の確率質量がどのように共変するかを実証的に研究し、不正解選択肢に対するスケーリング法則が達成可能であることを示唆した。本研究はまた、なぜ事前学習のスケーリング法則が下流タスク能力よりも予測可能とされるのかを説明し、最先端AIモデルのスケーリング予測可能な評価を確立するための貢献を果たす。
大規模言語モデル(LLMs)の出現に伴い、数千のGPUを活用した並列学習技術の採用が不可欠となっています。しかし、現在の並列学習の効率性はしばしば最適とは言えず、その主な原因として以下の2点が挙げられます。第一に、ハードウェアの故障は避けられず、学習タスクが中断されることがあります。故障したコンポーネントを迅速に特定できないため、GPUリソースが大幅に無駄になってしまいます。第二に、GPUは次の計算ラウンドに進む前にパラメータ同期が完了するのを待つ必要があるため、ネットワークの混雑がGPUの待機時間を大幅に増加させます。これらの課題に対処するため、本論文では通信駆動型のソリューションであるC4を提案します。C4の核心的な洞察は2つあります。第一に、並列学習において、集団通信は周期的で均質な特性を示すため、何らかの異常は必ずハードウェアの故障に起因します。この特性を活用することで、C4は故障したコンポーネントを迅速に特定し、異常を素早く隔離してタスクを再開し、異常検出の遅延によるリソースの無駄を回避します。第二に、集団通信の予測可能な通信モデルは、少数の大規模なフローを含むため、C4はトラフィック計画を効率的に実行し、ネットワークの混雑を大幅に軽減できます。C4は我々の生産システムに広く実装されており、エラーによるオーバーヘッドを約30%削減し、通信コストが中程度の特定のアプリケーションにおいて実行性能を約15%向上させています。