AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

語彙規模のスケーリング則：大規模モデルには大規模な語彙が必要
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18

ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

大規模言語モデル（LLM）のスケーリングに関する研究は、主にモデルパラメータとトレーニングデータのサイズに焦点を当てており、語彙サイズの役割を見落としてきた。直感的には、より大きな語彙は、文をより少ないトークンで表現することで効率的なトークン化を可能にするが、一方で希少なトークンの表現が不十分になるリスクも増大する。本研究では、33Mから3Bのパラメータを持つモデルを最大500B文字のデータでトレーニングし、さまざまな語彙構成がLLMのスケーリング則に与える影響を調査する。計算最適な語彙サイズを予測するために、IsoFLOPs分析、微分推定、および損失関数のパラメトリックフィットという3つの補完的なアプローチを提案する。これらのアプローチは、最適な語彙サイズが利用可能な計算予算に依存し、より大きなモデルにはより大きな語彙が適しているという同じ結論に収束する。しかし、ほとんどのLLMは語彙サイズが小さすぎる。例えば、Llama2-70Bの最適な語彙サイズは少なくとも216Kであるべきだと予測しており、これは実際に使用された32Kの語彙の7倍に相当する。3Bパラメータのモデルを異なるFLOPs予算でトレーニングすることで、これらの予測を実証的に検証する。予測された最適な語彙サイズを採用することで、一般的に使用される語彙サイズよりも下流タスクの性能が一貫して向上する。語彙サイズを従来の32Kから43Kに増やすことで、同じ2.3e21 FLOPsでARC-Challengeの性能を29.1から32.0に改善した。本研究は、効率的なスケーリングのためにモデルパラメータと語彙サイズを同時に考慮する必要性を強調している。

1兆トークンのデータストアを用いた検索ベース言語モデルのスケーリング
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9

ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh

訓練データ量とパラメータ数に関するスケーリング法則を用いることで、異なる構成での言語モデル（LM）の事前学習におけるコストと利益のトレードオフを予測することが可能です。本論文では、スケーリングの別の次元として、推論時に利用可能なデータ量を考察します。具体的には、検索ベースのLMが使用するデータストアのサイズを増やすことで、言語モデリングや複数の下流タスクが単調に改善し、明らかな飽和が見られないことを発見しました。その結果、大規模なデータストアで補強された小規模モデルが、知識集約型タスクにおいて大規模なLMのみのモデルを上回ることを示しています。データストア、モデル、事前学習データのサイズを変えた計算最適なスケーリング曲線をプロットすることで、同じ訓練計算予算でより大きなデータストアを使用することでモデルの性能が大幅に向上することを示します。本研究では、1.4兆トークンのデータストア「MassiveDS」を構築し、これまでで最大かつ最も多様なオープンソースの検索ベースLM用データストアとして提供しました。また、計算的にアクセス可能な方法でデータストアのスケーリングを研究するための効率的なパイプラインを設計しました。最後に、リトリーバーの改善、データストアの品質フィルタリング、およびその他の設計選択が観測されたスケーリングトレンドに与える影響を分析します。全体として、データストアのサイズはLMの効率性と性能のトレードオフの重要な要素として考慮されるべきであることが示されました。今後の研究を促進するため、データストアとコードをhttps://github.com/RulinShao/retrieval-scalingでオープンソースとして公開しています。

モーションの形状：単一動画からの4次元再構成
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18

ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa

単眼動的再構成は、そのタスクの非常に不良設定な性質から、困難で長年の課題となっている視覚問題です。既存のアプローチは、テンプレートに依存する、準静的なシーンでのみ有効である、または3Dモーションを明示的にモデル化できないといった限界があります。本研究では、カジュアルに撮影された単眼動画から、明示的でシーケンス全体にわたる3Dモーションを特徴とする一般的な動的シーンを再構成する手法を提案します。この問題の制約不足に対処するために、2つの重要な洞察を活用します。第一に、3Dモーションの低次元構造を利用し、シーンモーションをコンパクトなSE3モーションベースの集合で表現します。各点のモーションはこれらのベースの線形結合として表され、シーンを複数の剛体運動グループに柔軟に分解することを可能にします。第二に、単眼深度マップや長距離2Dトラックを含む包括的なデータ駆動型事前情報を活用し、これらのノイズの多い教師信号を効果的に統合する方法を考案し、動的シーンのグローバルに一貫した表現を実現します。実験結果は、本手法が長距離3D/2Dモーション推定と動的シーンにおける新規視点合成の両方で最先端の性能を達成することを示しています。プロジェクトページ: https://shape-of-motion.github.io/

Graniteコードモデルのコンテキスト長を128Kにスケーリング
Scaling Granite Code Models to 128K Context

Jul 18

ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda

本論文では、最大128Kトークンの有効なコンテキストウィンドウをサポートする長文脈Graniteコードモデルを紹介する。Granite 3B/8Bコードモデルのコンテキスト長を2K/4Kから128Kにスケーリングするための我々のソリューションは、リポジトリレベルのファイルパッキングと長文脈データの長さアップサンプリングを用いて、RoPEベース周波数を徐々に増加させる軽量な継続事前学習から成る。さらに、長文脈をサポートする指示チューニングモデルも公開しており、これは長文脈ベースモデルを、許諾ライセンスの短文脈と長文脈の指示-応答ペアの混合データでさらにファインチューニングしたものである。元の短文脈Graniteコードモデルと比較すると、我々の長文脈モデルは、通常のコード補完ベンチマーク（例：HumanEval）でのパフォーマンス低下をほとんど見せずに、長文脈タスクで大幅な改善を達成している。すべての長文脈Graniteコードモデルは、研究および商用利用のためのApache 2.0ライセンスの下で公開している。

ストリートスケープ：自己回帰型ビデオ拡散モデルを用いた大規模で一貫性のあるストリートビュー生成
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18

ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

私たちは、オンザフライで合成された都市規模のシーンを通じて、長いストリートビューのシーケンスを生成する方法を提案します。この生成は、言語入力（例：都市名、天候）と、目的の軌跡を保持する基盤となる地図/レイアウトによって条件付けられます。最近のビデオ生成や3Dビュー合成のモデルと比較して、私たちの方法は、視覚的な品質と一貫性を維持しながら、数ブロックにわたるはるかに長距離のカメラ軌跡にスケールすることができます。この目標を達成するために、長いシーケンスに容易にスケールできる自己回帰フレームワーク内で使用されるビデオ拡散に関する最近の研究を基盤としています。特に、現実的な都市イメージの分布から自己回帰アプローチが逸脱するのを防ぐ新しい時間的補完方法を導入します。私たちは、Googleストリートビューからのポーズ付き画像と、文脈的な地図データという魅力的なデータソースでStreetscapesシステムをトレーニングし、ユーザーが任意の都市レイアウトに基づいて、制御可能なカメラポーズで都市ビューを生成できるようにします。詳細な結果はプロジェクトページ（https://boyangdeng.com/streetscapes）をご覧ください。

マルチモーダル大規模言語モデルの信頼性評価：包括的研究
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11

ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

マルチモーダル大規模言語モデル（MLLMs）は多様なタスクにおいて優れた能力を発揮するにもかかわらず、信頼性に関する重大な課題に直面しています。しかし、信頼性のあるMLLMsを評価するための現在の研究は限られており、将来の改善に向けた包括的な洞察を提供するための全体的な評価が欠如しています。本研究では、信頼性に関する5つの主要な側面（真実性、安全性、堅牢性、公平性、プライバシー）にわたるMLLMsの信頼性を評価する初の包括的かつ統一されたベンチマーク「MultiTrust」を確立しました。私たちのベンチマークは、マルチモーダルリスクとクロスモーダル影響の両方に対処する厳密な評価戦略を採用し、独自に作成したデータセットを用いた32の多様なタスクを網羅しています。21の最新MLLMsを用いた広範な実験により、これまで未発見だった信頼性の問題やリスクが明らかになり、マルチモーダル性がもたらす複雑さが浮き彫りとなり、信頼性を向上させるための先進的な方法論の必要性が強調されました。例えば、一般的なプロプライエタリモデルは、視覚的に混乱を招く画像の認識に依然として苦戦しており、マルチモーダルジャイルブレイキングや敵対的攻撃に対して脆弱です。また、MLLMsはテキストにおいてプライバシーを漏洩しやすく、推論時に無関係な画像と組み合わせた場合でも、イデオロギーや文化的バイアスを露呈する傾向があり、マルチモーダル性が基盤となるLLMsからの内部リスクを増幅していることが示されています。さらに、標準化された信頼性研究を促進するためのスケーラブルなツールボックスを公開し、この重要な分野における将来の進展を支援することを目指しています。コードとリソースは以下のURLで公開されています: https://multi-trust.github.io/。

直接選好最適化における参照ポリシーの理解
Understanding Reference Policies in Direct Preference Optimization

Jul 18

ByYixin Liu, Pengfei Liu, Arman Cohan

Direct Preference Optimization (DPO) は、大規模言語モデル (LLM) の指示ファインチューニングにおいて広く使用されるトレーニング手法となっています。本研究では、DPO の未解明の側面、すなわち参照モデルまたはポリシーへの依存性について探求します。通常、ファインチューニング対象のモデルとして具体化されるこれらの参照ポリシーは、DPO の効果に上限を課す可能性があるため重要です。そこで、本研究では3つの関連する研究課題に取り組みます。まず、DPO における KLダイバージェンス制約の最適な強度を探求し、DPO がこの強度に敏感であることを明らかにします。次に、指示ファインチューニングにおける参照ポリシーの必要性を検証するため、DPO と関連する学習目的関数の理論的および実証的な比較を行い、DPO の優位性を実証します。さらに、DPO がより強力な参照ポリシーから恩恵を受けるかどうかを調査し、ファインチューニング対象のモデルと類似した場合に限り、より強力な参照ポリシーが性能向上につながることを発見しました。本研究の結果は、DPO における参照ポリシーの複雑な役割を浮き彫りにし、ベストプラクティスへの洞察を提供するとともに、今後の研究に向けた未解決の課題を特定しています。

BRIGHT: 推論集約型検索のための現実的で挑戦的なベンチマーク
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

既存の検索ベンチマークは主に、情報探索型のクエリ（例えば、検索エンジンから集約された質問）で構成されており、キーワードや意味ベースの検索で通常は十分です。しかし、多くの複雑な現実世界のクエリでは、表層的なマッチングを超えた関連文書を特定するために、深い推論が必要とされます。例えば、コーディングに関する質問のドキュメントを見つけるためには、関連する関数のロジックと構文を理解する必要があります。このような挑戦的なクエリに対する検索をより適切にベンチマークするために、我々はBRIGHTを導入します。BRIGHTは、集中的な推論を必要とする最初のテキスト検索ベンチマークです。BRIGHTは、経済学、心理学、ロボティクス、ソフトウェア工学、地球科学など多様な分野から収集された1,398の現実世界のクエリから構築されており、自然発生または慎重にキュレーションされた人間のデータに基づいています。広範な評価により、最先端の検索モデルでさえBRIGHTでは低い性能しか発揮しないことが明らかになりました。MTEBリーダーボードで最高スコアである59.0 nDCG@10を達成したモデル[38]も、BRIGHTでは18.0 nDCG@10しか得られませんでした。さらに、大規模言語モデル（LLM）によって生成されたChain-of-Thought推論をクエリに追加することで、最大12.2ポイントの性能向上が得られることを示しました。また、BRIGHTは、ベンチマークされたモデルの事前学習中にデータ漏洩が発生しても堅牢であり、ベンチマークの文書がトレーニングデータに含まれている場合でも同様の性能が得られることを検証しました。我々は、BRIGHTがより現実的で挑戦的な設定における検索システムの未来の研究の道を開くと信じています。コードとデータはhttps://brightbenchmark.github.ioで公開されています。

CLAY: 高品質3Dアセット生成のための制御可能な大規模生成モデル
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30

ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

デジタルクリエイティブの領域において、私たちが想像力から複雑な3D世界を創造する可能性は、既存のデジタルツールの制約によってしばしば妨げられています。これらのツールは、膨大な専門知識と労力を要求します。このギャップを埋めるために、私たちはCLAYを紹介します。CLAYは、人間の想像力を簡単に複雑な3Dデジタル構造に変換するために設計された3Dジオメトリとマテリアルジェネレータです。CLAYは、従来のテキストや画像入力に加えて、多様なプリミティブ（マルチビュー画像、ボクセル、バウンディングボックス、ポイントクラウド、暗黙的表現など）からの3D対応コントロールをサポートします。その中核には、多解像度変分オートエンコーダ（VAE）とミニマルな潜在拡散トランスフォーマー（DiT）で構成される大規模生成モデルがあり、多様な3Dジオメトリから直接豊富な3D事前情報を抽出します。具体的には、ニューラルフィールドを採用して連続的で完全な表面を表現し、潜在空間内で純粋なトランスフォーマーブロックを使用するジオメトリ生成モジュールを使用します。私たちは、慎重に設計された処理パイプラインを通じて取得された超大型3DモデルデータセットでCLAYをトレーニングするための段階的なトレーニングスキームを提示し、15億パラメータを持つ3Dネイティブのジオメトリジェネレータを実現しました。外観生成に関して、CLAYは、拡散、粗さ、金属性のモダリティを持つ2K解像度のテクスチャを生成できるマルチビューマテリアル拡散モデルを採用して、物理ベースレンダリング（PBR）テクスチャを生成することを目指しています。私たちは、スケッチのようなコンセプトデザインから、複雑なディテールを持つプロダクションレディアセットまで、幅広い制御可能な3Dアセット作成にCLAYを使用することを実証します。初めてのユーザーでも、CLAYを簡単に使用して、鮮やかな3Dの想像力を現実に変え、無限の創造力を解き放つことができます。

CodeV: マルチレベル要約によるVerilog生成のためのLLM強化
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15

ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

現代のプロセッサ設計における複雑さの増大と高コスト化に伴い、プロセッサ設計自動化への需要が急増しています。命令チューニングされた大規模言語モデル（LLM）は、Pythonのような汎用プログラミング言語のコード自動生成において顕著な性能を発揮しています。しかし、これらの手法はVerilogのようなハードウェア記述言語（HDL）ではうまく機能しません。これは、高品質な命令チューニングデータの不足が原因であり、GPT-3.5のような先進的なLLMでもVerilog生成の性能は限定的です。この問題に関して、我々は以下の観察を行いました。(1) 実世界から収集されたVerilogコードは、LLMが生成したものよりも高品質である。(2) GPT-3.5のようなLLMは、Verilogコードを生成するよりも、それを要約することに優れている。これらの観察に基づき、本論文ではCodeVを紹介します。これは、オープンソースの命令チューニングされたVerilog生成LLMのシリーズです。高度なLLMに説明を生成させ、それに対応するコードを取得する代わりに、VerilogコードをLLMにプロンプトとして与え、LLMに多段階の要約を通じて対応する自然言語の説明を生成させます。実験結果は、CodeVが以前のオープンソースのSOTA（VerilogEvalのBetterV）を14.4%、RTLLMのRTLCoderを11.3%それぞれ上回り、またVerilogEvalにおいて以前の商用SOTAであるGPT-4を22.1%上回ることを示しています。

注意オーバーフロー：長文脈における言語モデルの入力ぼやけと欠落アイテム推薦
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18

ByDamien Sileo

大規模言語モデル（LLM）は、プロンプトに記載された項目から欠落要素を提案することができ、リストの補完やユーザーの履歴に基づく推薦に利用できます。しかし、提示される項目数が多すぎると、入力リストに既に含まれている項目を提案し始めるため、その性能は低下します。この現象は、2024年半ばの主要なLLMにおいて、約100項目程度で発生します。我々はこの現象を、合成問題（例えば、シャッフルされた整数の範囲内で欠落している数字を見つける）と現実的な映画推薦シナリオの両方で評価しました。この問題を「アテンションオーバーフロー」と呼びます。なぜなら、繰り返しを防ぐためにはすべての項目に同時に注意を向ける必要があるからです。反復ループを使用することでこの問題を軽減することは可能ですが、そのコストは繰り返し率に応じて増加し、長い入力から新規性を導き出す言語モデルの能力に影響を与えます。

検索拡張型機械学習：統合と機会
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17

ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani

言語モデリングの分野において、検索コンポーネントを組み込んだモデルは、自然言語処理（NLP）分野が直面する知識の基盤付け、解釈可能性、スケーラビリティといった課題に対処する有望な解決策として登場してきた。NLPが主な焦点であるにもかかわらず、我々は検索強化のパラダイムが、コンピュータビジョン、時系列予測、計算生物学など、より広範な機械学習（ML）の領域に拡張可能であると提唱する。そこで、本研究では、このパラダイムを「検索強化型機械学習（Retrieval-Enhanced Machine Learning: REML）」として形式化したフレームワークを導入し、MLの様々な分野の文献を一貫した記法で統合することで、現行の文献に欠けている部分を補う。また、多くの研究がモデルを強化するために検索コンポーネントを採用しているものの、基礎的な情報検索（IR）研究との統合が不足していることを発見した。我々は、REMLフレームワークを構成する各コンポーネントを調査することで、先駆的なIR研究と現代のREML研究の間のギャップを埋める。最終的に、本研究の目的は、様々な分野の研究者に、検索強化モデルの包括的で形式的に構造化されたフレームワークを提供し、学際的な将来研究を促進することである。

医療文書の自動コーディングにおける説明可能性を伴う比較研究
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18

ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic

本研究は、自然言語処理（NLP）と機械学習（ML）技術を活用し、視覚的な説明可能性と軽量なローカルコンピュータ設定を備えた医療文書の自動コーディングを実現することを目的としています。現在、臨床現場では、患者の書類に含まれる各病状、処置、および薬剤にコードを割り当てる手動のコーディングプロセスが行われています（例：SNOMED CTコードを使用した56265001心疾患）。この分野では、最先端のMLモデルを用いた自動コーディングに関する予備的な研究が行われていますが、モデルの複雑さとサイズのため、実世界での展開は実現されていません。自動コーディングの実践可能性をさらに促進するため、ローカルコンピュータ設定でのいくつかの解決策を探求し、加えてAIモデルの透明性のための説明可能性の機能を探求します。本研究では、公開されているMIMIC-IIIデータベースとICDコード予測のためのHAN/HLANネットワークモデルを使用しました。また、ICDとSNOMED CTの知識ベース間のマッピングについても実験を行いました。実験の結果、モデルは97.98％のコードに対して有用な情報を提供しました。この調査の結果は、病院などの臨床現場で使用されるローカルコンピュータ上での自動臨床コーディングの実装に光を当てるものです。プロジェクトページはhttps://github.com/Glenj01/Medical-Codingにあります。

ベンチマーク合意テストの正しい実施方法：LLMベンチマーク評価のためのガイド
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18

ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

最近の言語モデル（LMs）の進歩により、これらのモデルの汎用的な能力を評価するための複数のベンチマークが作成されています。しかし、重要な課題は、ベンチマーク自体の妥当性を評価することです。これは通常、Benchmark Agreement Testing（BAT）を通じて行われ、新しいベンチマークが確立されたベンチマークに対して何らかの一致度指標（例：順位相関）を用いて検証されます。BATはベンチマークの作成者や利用者にとって重要な役割を果たしていますが、このような一致度テストのための標準化された手順は存在しません。この欠如は、無効な結論を導き、ベンチマークに対する不信を招き、適切なベンチマークを選択する能力を損なう可能性があります。40以上の主要なベンチマークを分析することで、いくつかの見過ごされがちな方法論的選択がBATの結果に大きな影響を与え、結論の妥当性を損なう可能性があることを示します。これらの不整合に対処するため、BATのためのベストプラクティスを提案し、これらの方法論を活用することでBATの堅牢性と妥当性が大幅に向上することを実証します。採用を促進し、将来の研究を容易にするために、BATのためのPythonパッケージであるBenchBenchを導入し、ベンチマークをその同僚を用いて評価するためのメタベンチマークであるBenchBench-leaderboardを公開します。我々の調査結果は、言語モデル研究の進化する状況において、ベンチマーク評価の堅牢性と妥当性を確保するための標準化されたBATの必要性を強調しています。 BenchBenchパッケージ: https://github.com/IBM/BenchBench リーダーボード: https://huggingface.co/spaces/per/BenchBench

PM-LLMベンチマーク：プロセスマイニングタスクにおける大規模言語モデルの評価
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18

ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst

大規模言語モデル（LLM）は、プロセスマイニング（PM）分析の一部を半自動化する可能性を秘めています。商用モデルは既に多くの分析タスクに適していますが、オープンソースのLLMがPMタスクにおいてどの程度競争力があるかは不明です。本論文では、ドメイン知識（プロセスマイニング固有およびプロセス固有）と異なる実装戦略に焦点を当てた、PM-LLM-Benchmarkという初の包括的なベンチマークを提案します。また、このようなベンチマークを作成する際の課題、特にデータの公開可能性とLLMによる評価バイアスについても取り上げます。全体として、検討されたLLMの多くは、満足のいくレベルで一部のプロセスマイニングタスクを実行できることが観察されましたが、エッジデバイスで動作する小型モデルはまだ不十分です。さらに、提案されたベンチマークはプロセスマイニングタスクに適したLLMを特定するのに有用であるものの、評価バイアスを克服し、競争力のあるLLMをより徹底的にランク付けするためには、さらなる研究が必要であると結論付けます。