翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬を用いた強化学習(RLVR)は、結果ベースの報酬から直接学習することで、大規模言語モデルの推論能力を向上させる可能性を示しています。ゼロ設定で動作する最近のRLVR研究では、推論プロセスのラベル付けにおける監督を回避していますが、依然として訓練用の手作業でキュレートされた質問と回答のコレクションに依存しています。高品質な人間による事例の不足は、言語モデルの事前学習の領域ですでに明らかなように、人間の監督に依存することの長期的な拡張性に関する懸念を引き起こしています。さらに、AIが人間の知能を超える仮想的な未来においては、人間が提供するタスクは超知能システムにとって限られた学習の可能性しか提供しないかもしれません。これらの懸念に対処するため、我々は「Absolute Zero」と呼ばれる新しいRLVRパラダイムを提案します。このパラダイムでは、単一のモデルが自身の学習進捗を最大化するタスクを提案し、それらを解決することで推論能力を向上させ、外部データに一切依存しません。このパラダイムの下で、我々はAbsolute Zero Reasoner(AZR)を紹介します。AZRは、コード実行器を使用して提案されたコード推論タスクを検証し、回答を確認することで、訓練カリキュラムと推論能力を自己進化させ、検証可能な報酬の統一された源として、開放的でありながら根拠のある学習を導きます。外部データを一切使用せずに訓練されたにもかかわらず、AZRはコーディングと数学的推論タスクにおいて全体的にSOTA性能を達成し、数万のドメイン内の人間によるキュレートされた事例に依存する既存のゼロ設定モデルを上回ります。さらに、AZRが異なるモデルスケールに効果的に適用可能であり、さまざまなモデルクラスと互換性があることを実証します。
近年のマルチモーダルな報酬モデル(Reward Models, RMs)の進展は、視覚モデルを人間の好みに合わせるための報酬信号を提供する上で大きな可能性を示しています。しかし、現在のRMsは一般的に直接的な応答を提供するか、限られた深さの浅い推論プロセスに留まっており、しばしば不正確な報酬信号を引き起こすことがあります。我々は、報酬推論プロセスに明示的な長い思考連鎖(Chain of Thought, CoT)を組み込むことで、その信頼性と堅牢性を大幅に強化できると考えています。さらに、RMsがCoT推論を内在化すれば、その直接応答の精度も暗黙の推論能力を通じて向上させることができると信じています。この目的のために、本論文ではUnifiedReward-Thinkを提案します。これは、視覚理解と生成報酬タスクの両方に対して、多次元的で段階的な長い連鎖推論が可能な初めての統一されたマルチモーダルCoTベースの報酬モデルです。具体的には、探索駆動型の強化学習ファインチューニングアプローチを採用し、モデルの潜在的な複雑な推論能力を引き出し、促進します。(1) まず、少量の画像生成選好データを使用してGPT-4oの推論プロセスを蒸留し、それをモデルのコールドスタートに利用してCoT推論の形式と構造を学習させます。(2) 次に、モデルの事前知識と汎化能力を活用して、大規模な統一マルチモーダル選好データを準備し、さまざまな視覚タスクにわたるモデルの推論プロセスを引き出します。この段階では、正しい推論出力を保持してリジェクションサンプリングを行い、モデルを洗練させます。(3) 一方で、誤った予測サンプルは最終的にGroup Relative Policy Optimization(GRPO)ベースの強化学習ファインチューニングに使用され、モデルが多様な推論パスを探索し、正しく堅牢な解決策を最適化できるようにします。さまざまな視覚報酬タスクにわたる広範な実験により、我々のモデルの優位性が実証されています。
本論文では、Rapid Attention Distillation to Linear Attention Decoders at Scale(RADLADS)を提案します。これは、ソフトマックスアテンショントランスフォーマーを線形アテンションデコーダーモデルに迅速に変換するプロトコルであり、2つの新しいRWKVバリアントアーキテクチャと、7B、32B、72Bサイズの人気オープンソースモデルQwen2.5から変換したモデルを含みます。我々の変換プロセスは、350-700Mトークンのみを必要とし、元の教師モデルの訓練に使用されたトークン数の0.005%未満です。72Bの線形アテンションモデルへの変換コストは、現在の価格で2,000米ドル未満でありながら、推論時の品質は元のトランスフォーマーに近いままです。これらのモデルは、そのサイズの線形アテンションモデルにおける一連の標準ベンチマークで、最先端の下流性能を達成します。我々は、72Bモデルを除くすべてのモデルをApache 2.0ライセンスの下でHuggingFaceに公開します。72BモデルはQwenライセンス契約にも準拠します。 モデルは以下で公開しています: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 訓練コードは以下で公開しています: https://github.com/recursal/RADLADS-paper
アクションカスタマイズは、入力制御信号によって指示された動作を被写体が行う動画を生成することを含みます。現在の手法では、ポーズガイドやグローバルモーションカスタマイズが使用されていますが、レイアウト、骨格、視点の一貫性など、空間構造に関する厳格な制約によって制限されており、多様な被写体やシナリオへの適応性が低下しています。これらの制限を克服するために、我々はFlexiActを提案します。FlexiActは、参照動画から任意のターゲット画像へ動作を転送します。既存の手法とは異なり、FlexiActは、参照動画の被写体とターゲット画像の間でレイアウト、視点、骨格構造の変動を許容しつつ、アイデンティティの一貫性を維持します。これを実現するためには、正確な動作制御、空間構造の適応、および一貫性の保持が必要です。この目的のために、我々はRefAdapterを導入します。RefAdapterは、空間適応と一貫性保持に優れた軽量な画像条件付きアダプタであり、外観の一貫性と構造の柔軟性のバランスにおいて既存の手法を凌駕します。さらに、我々の観察に基づき、ノイズ除去プロセスは、異なるタイムステップにおいて、モーション(低周波数)と外観の詳細(高周波数)に対して異なるレベルの注意を払うことがわかります。そこで、我々はFAE(Frequency-aware Action Extraction)を提案します。FAEは、既存の手法とは異なり、空間-時間アーキテクチャを分離することなく、ノイズ除去プロセス中に直接動作抽出を実現します。実験により、我々の手法が、多様なレイアウト、骨格、視点を持つ被写体に対して効果的に動作を転送することが示されています。我々は、さらなる研究を支援するために、コードとモデルウェイトをhttps://shiyi-zh0408.github.io/projectpages/FlexiAct/で公開しています。
大規模言語モデル(LLM)のコンテキスト長の増加は、主にGPUメモリと帯域幅の制約により、効率的な推論に大きな課題をもたらしています。本論文では、RetroInferという新しいシステムを提案します。このシステムは、キー・バリュー(KV)キャッシュをベクトルストレージシステムとして再概念化し、内在するアテンションのスパース性を活用して長文コンテキストのLLM推論を加速します。その中核となるのは、wave index(Attention-aWare VEctor index)です。このインデックスは、三分近似アテンション、精度保証型アテンション推定、セグメント化クラスタリングなどの技術を通じて、重要なトークンの効率的かつ正確な検索を可能にします。これを補完するのがwave bufferで、KVキャッシュの配置を調整し、GPUとCPU間の計算とデータ転送をオーバーラップさせて高いスループットを維持します。トークン選択とハードウェア調整に苦戦する従来のスパース性ベースの手法とは異なり、RetroInferはモデルの精度を損なうことなく堅牢な性能を提供します。長文コンテキストベンチマークでの実験では、GPUメモリ制限内でフルアテンションと比較して最大4.5倍の高速化を実現し、KVキャッシュをCPUメモリに拡張した場合にはスパースアテンションベースラインと比較して最大10.5倍の高速化を達成しました。これらはすべて、フルアテンションレベルの精度を維持しながら行われています。
Qwenシリーズは、オープンソースの大規模言語モデル(LLM)ファミリーとして注目を集めており、自然言語理解タスクにおいて卓越した能力を発揮しています。最近リリースされたQwen3は、多様なベンチマークで優れた性能を示しており、リソースが限られた環境での効率的な展開に対する関心が高まっています。低ビット量子化は有望な解決策を提供しますが、Qwen3の性能への影響はまだ十分に検証されていません。本研究では、Qwen3の堅牢性を様々な量子化設定下で体系的に評価し、この最先端モデルを圧縮する際の機会と課題を明らかにすることを目指しています。1ビットから8ビットまでのビット幅にわたる5つの既存のポストトレーニング量子化技術をQwen3に適用し、複数のデータセットでその有効性を厳密に評価しました。その結果、Qwen3は中程度のビット幅では競争力のある性能を維持するものの、超低精度下では言語タスクにおいて顕著な性能低下が見られ、LLM圧縮における持続的な課題が浮き彫りになりました。これらの結果は、極端な量子化シナリオにおける性能低下を軽減するためのさらなる研究の必要性を強調しています。本実証分析が、Qwen3および将来のLLMに特化した量子化手法の進展に役立つ実践的な知見を提供し、精度を損なうことなく実用性を高めることを期待しています。本プロジェクトは、https://github.com/Efficient-ML/Qwen3-Quantization および https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b で公開されています。
AI駆動型サッカー理解の最近の進展は急速な進歩を示しているものの、既存の研究は主に孤立したまたは狭いタスクに焦点を当てています。このギャップを埋めるため、我々は包括的なサッカー理解のためのフレームワークを提案します。具体的には、本論文で以下の貢献を行います:(i) プレイヤー、チーム、審判、会場に関する豊富なドメイン知識を統合し、知識駆動型推論を可能にする初の大規模マルチモーダルサッカー知識ベース「SoccerWiki」を構築します。(ii) 自動化パイプラインと手動検証を通じてキュレーションされた、13の異なる理解タスクにわたる約10Kの標準化されたマルチモーダル(テキスト、画像、ビデオ)多肢選択QAペアを特徴とする、最大かつ最も包括的なサッカー特化ベンチマーク「SoccerBench」を提示します。(iii) SoccerWikiのドメイン専門知識を活用し、複雑なサッカー質問を協調的推論によって分解する新規マルチエージェントシステム「SoccerAgent」を導入し、堅牢な性能を達成します。(iv) SoccerBench上での最先端MLLMをベンチマークする広範な評価とアブレーションを行い、提案したエージェントシステムの優位性を強調します。すべてのデータとコードは以下で公開されています:https://jyrao.github.io/SoccerAgent/。
読書において、私たちはしばしばテキストの中に特定の興味深い情報を求めます。例えば、この論文を読んでいるのは、読書中の眼球運動に関するLLM(大規模言語モデル)に興味があるからかもしれませんし、実験デザインについて知りたいからかもしれません。あるいは、単に「これは実際に機能するのか?」という疑問に答えが欲しいからかもしれません。より広く見ると、日常生活において、人々はテキスト固有の目標を持って読み進めることが多く、それが読書行動を導いています。本研究では、初めて、開かれた読書目標が読書中の眼球運動から自動的に解読できるかどうかを問います。この問いに答えるため、目標分類と目標再構築のタスクと評価フレームワークを導入し、英語の読書データにおける大規模な眼球追跡データと数百のテキスト固有の情報探索タスクを使用します。眼球運動とテキストを組み合わせた識別的および生成的マルチモーダルLLMを開発し、比較します。私たちの実験は、両タスクにおいてかなりの成功を示しており、LLMが読者のテキスト固有の目標に関する貴重な情報を眼球運動から抽出できることを示唆しています。
拡散モデルの急速な進展は、ユーザー体験にシーンレベルの4Dアセットを必要とするVRおよびAR技術の応用に革命をもたらす可能性を秘めています。しかしながら、既存の拡散モデルは主に静的な3Dシーンやオブジェクトレベルのダイナミクスのモデリングに集中しており、真に没入感のある体験を提供する能力が制限されています。この問題を解決するため、我々はHoloTimeを提案します。これは、単一のプロンプトまたは参照画像からパノラマ動画を生成するビデオ拡散モデルと、生成されたパノラマ動画をシームレスに4Dアセットに変換する360度4Dシーン再構成手法を統合したフレームワークであり、ユーザーに完全に没入感のある4D体験を可能にします。具体的には、高忠実度のパノラマ動画を生成するためにビデオ拡散モデルを制御するため、我々は360Worldデータセットを導入しました。これは、下流の4Dシーン再構成タスクに適した初の包括的なパノラマ動画のコレクションです。このキュレーションデータセットを用いて、我々はPanoramic Animatorを提案します。これは、パノラマ画像を高品質なパノラマ動画に変換する二段階の画像からビデオへの拡散モデルです。その後、我々はPanoramic Space-Time Reconstructionを提示します。これは、空間時間深度推定手法を活用して生成されたパノラマ動画を4D点群に変換し、空間的および時間的に一貫した4Dシーンを再構成するための包括的な4D Gaussian Splatting表現の最適化を可能にします。我々の手法の有効性を検証するため、既存の手法との比較分析を行い、パノラマ動画生成および4Dシーン再構成の両方において優位性を示しました。これは、我々の手法がより魅力的で現実的な没入環境を作り出す能力を実証し、それによってVRおよびARアプリケーションにおけるユーザー体験を向上させることを示しています。
大規模言語モデル(LLMs)は、さまざまな自然言語処理タスクにおいて前例のない能力を発揮してきた。テキストやコードを処理し、有効な出力を生成する能力により、多くの分野で広く利用されるようになった一方で、知識ベースや「推論」ツールとしての展開は、依然として研究が進行中の領域である。地理学においては、LLMsの地理的知識と空間推論能力を評価する研究が増えつつある。しかし、これらのモデルの内部動作、特に地理情報をどのように処理するかについては、まだほとんど知られていない。 本章では、地理空間的メカニズム解釈可能性の研究のための新しいフレームワークを確立する。空間分析を用いて、LLMsが地理情報をどのように扱うかを逆解析することを目指す。私たちの目的は、これらの複雑なモデルが地理情報を処理する際に生成する内部表現をより深く理解することである。もしそのような表現が過度な擬人化でないならば、「LLMsが地理情報についてどのように考えるか」と呼べるかもしれない。 まず、LLMsの内部構造を明らかにするためのプロービングの使用について概説する。次に、メカニズム解釈可能性の分野を紹介し、重ね合わせ仮説とスパースオートエンコーダーの役割について議論する。これらは、LLMsの多義的な内部表現をより解釈可能な単義的な特徴に分解するのに役立つ。私たちの実験では、地名に対して得られた特徴が地理的位置に関連する空間パターンを示すことを空間自己相関を用いて示し、これらのモデルが地理情報をどのように処理するかについての洞察を提供する。最後に、私たちのフレームワークが地理学における基盤モデルの研究と使用をどのように形作るかについて議論する。
ソフトウェアエンジニアリング向けの言語モデル(LMs)における最近の進展にもかかわらず、トレーニングデータの収集は依然として大きな課題となっています。既存のデータセットは小さく、最大でも11以下のGitHubリポジトリから得られた数千のトレーニングインスタンスしかありません。これらのデータセットをキュレーションする手順はしばしば複雑で、数百時間の人的労力を必要とします。また、関連する実行環境も数テラバイトのストレージを占有し、そのスケーラビリティと使いやすさを大幅に制限しています。この課題に対処するため、私たちはSWE-smithを導入します。これは、大規模なソフトウェアエンジニアリングのトレーニングデータを生成するための新しいパイプラインです。任意のPythonコードベースを入力として、SWE-smithは対応する実行環境を構築し、コードベース内の既存のテストを破壊する数百から数千のタスクインスタンスを自動的に合成します。SWE-smithを使用して、128のGitHubリポジトリから得られた50,000のインスタンスからなるデータセットを作成しました。これは、これまでのすべての研究を一桁上回る規模です。私たちはSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1解決率を達成しました。これはオープンソースモデルの中で最先端の性能です。私たちはSWE-smith(収集手順、タスクインスタンス、軌跡、モデル)をオープンソース化し、自動化されたソフトウェアエンジニアリングのためのLMシステム研究の参入障壁を下げます。すべてのアセットはhttps://swesmith.comで利用可能です。
自然な人間とコンピュータのインタラクションに対する要求が高まる中、音声は日常的なコミュニケーションの最も一般的な形態の一つであるため、音声ベースのシステムが注目を集めています。しかし、既存の音声モデルは、ストリーミング中に最初のオーディオトークンを生成する際に高いレイテンシを経験しており、これが展開における重大なボトルネックとなっています。この問題に対処するため、我々はVITA-Audioを提案します。これは、高速なオーディオ-テキストトークン生成を可能にするエンドツーエンドの大規模音声モデルです。具体的には、軽量なMultiple Cross-modal Token Prediction (MCTP)モジュールを導入し、単一のモデルフォワードパス内で複数のオーディオトークンを効率的に生成します。これにより、推論が加速されるだけでなく、ストリーミングシナリオにおける最初のオーディオ生成のレイテンシが大幅に削減されます。さらに、音声品質の最小限の損失でモデルの加速を実現するために、4段階のプログレッシブトレーニング戦略を探求します。我々の知る限り、VITA-Audioは最初のフォワードパス中にオーディオ出力を生成できる最初のマルチモーダル大規模言語モデルであり、最小限のレイテンシでリアルタイムの会話能力を可能にします。VITA-Audioは完全に再現可能であり、オープンソースのデータのみでトレーニングされています。実験結果は、我々のモデルが7Bパラメータスケールで3~5倍の推論速度向上を達成するだけでなく、自動音声認識(ASR)、テキストトゥスピーチ(TTS)、音声質問応答(SQA)タスクの複数のベンチマークにおいて、類似のモデルサイズのオープンソースモデルを大幅に上回ることを示しています。
LLMマルチエージェントシステムにおける失敗の帰属-タスクの失敗に関与したエージェントとステップの特定-は、システムデバッグにおいて重要な手がかりを提供しますが、未開拓であり、労力を要する作業です。本論文では、LLMマルチエージェントシステムの自動化された失敗帰属という新しい研究領域を提案し、定式化します。この取り組みを支援するため、127のLLMマルチエージェントシステムから収集した広範な失敗ログと、失敗を特定のエージェントと決定的なエラーステップにリンクする詳細なアノテーションを含むWho&Whenデータセットを紹介します。Who&Whenを使用して、3つの自動化された失敗帰属手法を開発し、評価し、それぞれの長所と短所をまとめます。最良の手法は、失敗に関与したエージェントを特定する際に53.5%の精度を達成しますが、失敗ステップを特定する際には14.2%の精度しか達成できず、一部の手法はランダム以下に留まります。OpenAI o1やDeepSeek R1などの最先端の推論モデルでさえ、実用的な使用性を達成できません。これらの結果は、このタスクの複雑さと、この分野におけるさらなる研究の必要性を強調しています。コードとデータセットはhttps://github.com/mingyin1/Agents_Failure_Attributionで公開されています。
テキストからインタラクティブな3Dシーンを合成することは、ゲーム、仮想現実、およびエンボディドAIにとって重要です。しかし、既存の手法はいくつかの課題に直面しています。学習ベースのアプローチは小規模な屋内データセットに依存しており、シーンの多様性とレイアウトの複雑さが制限されています。一方、大規模言語モデル(LLM)は多様なテキストドメインの知識を活用できますが、空間的なリアリズムに苦戦し、常識を尊重しない不自然なオブジェクト配置を生成することがよくあります。私たちの重要な洞察は、視覚知覚がLLMが欠如する現実的な空間ガイダンスを提供することで、このギャップを埋めることができるということです。この目的のために、LLMベースのシーンプランニングと視覚ガイドによるレイアウト改善を統合した、トレーニング不要のエージェントフレームワークであるScenethesisを導入します。テキストプロンプトが与えられると、ScenethesisはまずLLMを使用して粗いレイアウトを作成します。次に、視覚モジュールが画像ガイダンスを生成し、シーン構造を抽出してオブジェクト間の関係を捕捉することで、これを改善します。その後、最適化モジュールが正確なポーズアラインメントと物理的な妥当性を反復的に強制し、オブジェクトの貫通や不安定性などのアーティファクトを防止します。最後に、判定モジュールが空間的一貫性を検証します。包括的な実験により、Scenethesisが多様で現実的かつ物理的に妥当な3Dインタラクティブシーンを生成することが示され、仮想コンテンツ作成、シミュレーション環境、およびエンボディドAI研究にとって価値があることが確認されました。
従来のデータプレゼンテーションでは、プレゼンターと視覚化を3D空間と2Dスクリーンという別々の空間に分離し、視覚化中心のストーリーを強制する傾向がありました。より人間中心の視聴体験を実現するため、私たちはInfoVidsを通じて視覚化とプレゼンターの間により公平な関係を確立しました。これらのインフォグラフィックにインスパイアされた情報動画は、プレゼンターと視覚化の関係を再定義するために設計されています。InfoVidsを設計する際、レイアウト、フォーム、インタラクションの使用が視聴者体験にどのように影響するかを探求しました。30名の参加者を対象に、InfoVidsと従来の2D「スライド」を9つの指標で比較し、自伝的視点から実践的かつ長期的な洞察を提供します。混合手法による分析から、このパラダイムは視聴者の注意の分散を減少させ、視覚化からプレゼンターへの焦点をシフトさせ、よりインタラクティブで自然かつ魅力的な全身を使ったデータパフォーマンスを視聴者に提供することが明らかになりました。最終的に、InfoVidsは視聴者がプレゼンターと視覚化の間の従来のダイナミクスを再想像する手助けとなりました。
言語モデルの開発者は通常、モデルが類似した出力を生成するのを防ぐため、有害なテキストや著作権保護されたテキストなどの高リスクコンテンツを事前学習データから除外します。しかし、そのようなデータを完全に除去することは、モデルが有害またはセンシティブなコンテンツを認識し、適切に対応する能力を制限します。本論文では、高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである「Selective Loss to Understand but Not Generate(SLUNG)」を提案します。SLUNGは、次のトークン予測損失を一律に適用するのではなく、高リスクトークンの生成を促さないように選択的に回避しつつ、それらをモデルのコンテキストウィンドウ内に留めます。モデルが高リスクトークンに続く低リスクトークンを予測することを学ぶことで、高リスクコンテンツを理解することを強制されます。実験を通じて、SLUNGがモデルの高リスクデータの理解能力(例:有害コンテンツの認識能力)を向上させつつ、その生成(例:モデル応答の毒性)を増加させないことを示します。全体として、SLUNGパラダイムは、除外されるであろう高リスクテキストからモデルが利益を得ることを可能にします。
大規模言語モデル(LM)と小規模言語モデルの協調パラダイムは、性能とコストのバランスを効果的に取りますが、その重要な課題は、小規模LMで幻覚(hallucination)が発生した際の呼び出しタイミングを正確に特定することにあります。これまでの最適化努力は主に後処理技術に焦点を当てており、これらはLMの推論プロセスとは独立していたため、高い計算コストと限定的な効果をもたらしていました。本論文では、AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案します。これは、小規模LMの生成プロセスにおける幻覚の蓄積と伝播を計算し、潜在的な推論エラーを継続的に増幅します。検出閾値を動的に調整することで、大規模LMのより正確なリアルタイム呼び出しを実現します。さらに、小規模LMの限られた推論能力を考慮し、不確実性を意識した知識再編成を活用して、異なるテキストチャンクから重要な情報をより良く捕捉できるように支援します。大規模な実験により、AttenHScoreが複数のQAデータセットにおいてリアルタイムの幻覚検出能力を向上させる点でほとんどのベースラインを上回り、特に複雑なクエリに対処する際に優れていることが明らかになりました。さらに、私たちの戦略は追加のモデルトレーニングを必要とせず、様々なトランスフォーマーベースのLMに適応する柔軟性を示します。
近年、大規模言語モデル(LLM)を基盤としたマルチエージェントフレームワークが急速に進化しています。しかしながら、その性能を評価するために特化したベンチマークデータセットは依然として不足しています。このギャップを埋めるため、我々はAuto-SLURPを導入します。これは、インテリジェントパーソナルアシスタントの文脈において、LLMベースのマルチエージェントフレームワークを評価するためのベンチマークデータセットです。Auto-SLURPは、自然言語理解タスク向けに当初開発されたSLURPデータセットを拡張し、データの再ラベリングとシミュレーションサーバーおよび外部サービスの統合を行っています。これにより、言語理解、タスク実行、応答生成をカバーする包括的なエンドツーエンド評価パイプラインが実現されます。我々の実験結果は、Auto-SLURPが現在の最先端フレームワークにとって重要な課題を提示しており、真に信頼性が高くインテリジェントなマルチエージェントパーソナルアシスタントの実現がまだ進行中であることを示しています。データセットと関連コードはhttps://github.com/lorashen/Auto-SLURP/で公開されています。
本研究では、Financial Modeling World Cup (FMWC) Excelコンペティションから派生した課題を用いて、大規模言語モデル(LLMs)を評価するための新たなベンチマークを提案します。既存の113のFMWC課題をプログラム的に評価可能なJSON形式に変換する手法を導入し、このデータセットを用いて複数の主要なLLMsの性能を比較しました。その結果、異なる課題カテゴリー間で性能に大きなばらつきが見られ、モデルはパターン認識タスクでは特定の強みを示す一方、複雑な数値推論には苦戦することが明らかになりました。このベンチマークは、抽象的な学術的問題ではなく、現実的なビジネス指向のタスクにおけるLLMの能力を評価するための標準化された枠組みを提供します。本研究は、Microsoft Excelを日常的に使用する15億人の熟練度を有意義な評価指標として確立することで、学術的なAIベンチマークと実践的なビジネスアプリケーションの間のギャップを埋めることにより、AIベンチマークの分野の発展に貢献します。