翻訳付きの日次キュレーションされたAI研究論文
生データソースから分析者レベルの深い研究レポートに至る自律的なデータサイエンスは、長年の課題であり、強力な大規模言語モデル(LLM)の登場により実現可能になりつつある。最近のワークフローベースのデータエージェントは、特定のデータタスクで有望な結果を示しているが、事前定義されたワークフローに依存しているため、完全な自律データサイエンスの達成には根本的な限界がある。本論文では、データソースから分析者レベルの深い研究レポートまでのエンドツーエンドのパイプラインを自動的に完了できる、自律データサイエンス向けに設計された最初のエージェント型LLMであるDeepAnalyze-8Bを紹介する。高複雑度のデータサイエンスタスクに対処するため、人間のデータサイエンティストの学習軌跡を模倣したカリキュラムベースのエージェント型トレーニングパラダイムを提案し、LLMが現実環境で複数の能力を段階的に習得し統合できるようにする。また、高品質なトレーニングデータを構築するデータグラウンド型軌跡合成フレームワークを導入する。エージェント型トレーニングを通じて、DeepAnalyzeはデータ質問応答や専門的な分析タスクからオープンエンドのデータ研究まで、幅広いデータタスクを実行することを学ぶ。実験結果は、わずか8BパラメータのDeepAnalyzeが、最先端のプロプライエタリLLMに基づいて構築された従来のワークフローベースのエージェントを凌駕することを示している。DeepAnalyzeのモデル、コード、およびトレーニングデータはオープンソース化されており、自律データサイエンスへの道を切り開いている。
画像編集は近年、著しい進歩を遂げている。現代の編集モデルは、複雑な指示に従って元のコンテンツを操作することが可能である。しかし、編集指示を完了することに加えて、それに伴う物理的効果が生成のリアリズムにおいて重要な鍵を握る。例えば、物体を削除する場合、その影や反射、周囲の物体との相互作用も同時に除去されるべきである。残念ながら、既存のモデルやベンチマークは主に指示の完了に焦点を当てており、これらの物理的効果を見落としている。では、現時点で物理的にリアルな画像編集にはどれほど近づいているのだろうか?この問いに答えるため、我々はPICABenchを導入し、最も一般的な編集操作(追加、削除、属性変更など)に対して、光学、力学、状態遷移にわたる8つのサブ次元にわたって物理的リアリズムを体系的に評価する。さらに、VLM-as-a-judgeを用いた信頼性の高い評価プロトコルであるPICAEvalを提案し、ケースごとの領域レベルでの人間の注釈と質問を活用する。ベンチマークを超えて、ビデオから物理学を学習し、トレーニングデータセットPICA-100Kを構築することで、効果的な解決策を探る。主流のモデルのほとんどを評価した結果、物理的リアリズムは依然として大きな探求の余地がある難しい問題であることが観察された。我々のベンチマークと提案された解決策が、単純なコンテンツ編集から物理的に一貫したリアリズムに向けた将来の研究の基盤となることを期待する。
大規模言語モデル(LLMs)は、文書理解、コード分析、多段階推論などのタスクにおいて、長文脈モデリングにますます依存するようになっている。しかし、コンテキストウィンドウを百万トークンレベルまで拡張することは、計算コストとメモリコストが膨大になり、長文脈LLMsの実用性を制限している。本研究では、この課題に取り組むために、視覚的コンテキストスケーリングという異なる視点を採用する。トークンベースのシーケンスを拡張する代わりに、Glyphというフレームワークを提案し、長文を画像としてレンダリングし、視覚言語モデル(VLMs)で処理する。このアプローチは、テキスト入力を大幅に圧縮しながら意味情報を保持し、さらに、精度と圧縮のバランスを取るための最適な視覚レンダリング設定を特定するために、LLM駆動の遺伝的探索を設計する。広範な実験を通じて、我々の手法が、Qwen3-8Bなどの主要なLLMsと同等の精度を維持しながら、3-4倍のトークン圧縮を達成することを示す。この圧縮により、プリフィリングとデコードが約4倍速くなり、SFTトレーニングが約2倍速くなる。さらに、極端な圧縮下では、128KコンテキストのVLMが1Mトークンレベルのテキストタスクを処理できるようにスケールする。また、レンダリングされたテキストデータは、文書理解などの現実世界のマルチモーダルタスクにも役立つ。我々のコードとモデルはhttps://github.com/thu-coai/Glyphで公開されている。
視覚言語モデル(VLM)の進展は、断片的で一貫性のない、また汚染された公開データセットの状況によって妨げられています。本研究では、FineVisionを紹介します。これは、24万サンプルからなる慎重に収集、整理、統合されたコーパスであり、同種のものとしては最大のオープンリソースです。200以上のソースを185のサブセットに統合するために、半自動化された人間介入型パイプラインを採用しています。自動化は一括取り込みとスキーママッピングを実行し、レビュアーはマッピングを監査し、出力をスポットチェックして、注釈の忠実な消費、適切なフォーマットと多様性、安全性を確認します。問題が発生した場合は、特定の修正と再実行が行われます。このワークフローは、ソース内およびソース間での厳密な重複排除と、66の公開ベンチマークに対する除染も適用します。FineVisionはまた、統一されたアクション空間を持つエージェント/GUIタスクも包含しており、レビュアーはスキーマを検証し、軌跡のサンプルを検査して実行可能な忠実度を確認します。FineVisionで訓練されたモデルは、広範な評価スイートにおいて、既存のオープンミックスで訓練されたモデルを一貫して上回り、スケール、データの衛生状態、人間の監視を伴うバランスの取れた自動化の利点を強調しています。我々は、データ中心のVLM研究を加速するために、コーパスとキュレーションツールを公開します。
マルチモーダル言語モデル(MLLM)研究における支配的な仮定は、その性能が主に大規模なパラメータ数と卓越した能力を持つLLMバックボーンから継承されているというものである。これにより、MLLMが画像をどのように知覚するかを決定するビジョンエンコーダの理解に空白が生じている。最近のMLLMトレーニングパラダイムの変化、すなわち教師ありファインチューニング(SFT)から強化学習(RL)への移行は、この見落としをさらに顕著にしている。具体的には、そのようなトレーニングがビジョンエンコーダおよびMLLMをどのように再形成するかに関する分析が著しく不足している。この問題に対処するため、我々はまずトレーニング戦略がMLLMに与える影響を調査し、RLがSFTよりも視覚関連のVQAベンチマークで明確な優位性を示すことを確認した。これに動機づけられ、我々はMLLMのビジョンエンコーダに対する重要でありながら未開拓の分析を、ImageNet分類やセグメンテーションから勾配可視化まで多様かつ深い実験を通じて行った。その結果、MLLMのポストトレーニング戦略(すなわちSFTまたはRL)が、MLLMの下流タスクにおいて異なる結果をもたらすだけでなく、MLLMの基盤となる視覚表現を根本的に再形成することが明らかになった。具体的には、我々の研究の重要な発見として、RLがSFTと比較してより強力で正確に局在化された視覚表現を生成し、MLLMのビジョンエンコーダの能力を向上させることが示された。我々はこれらの発見を、MLLMのための強力なビジョンエンコーダを構築するためのシンプルなレシピ、Preference-Instructed Vision OpTimization(PIVOT)として再構築した。MLLMに統合された場合、PIVOTでトレーニングされたビジョンエンコーダは、標準的なビジョンプリトレーニングの計算コストの1%未満で、より大規模で高度にトレーニングされた対照モデルを上回る性能を示した。この結果は、MLLMのビジョンバックボーンを進化させるための効果的かつ効率的な道を開くものである。プロジェクトページはhttps://june-page.github.io/pivot/で公開されている。
大規模言語モデル(LLM)は、推論時に追加の計算リソースを割り当てるテストタイムスケーリング(TTS)パラダイムによって、複雑な推論タスクにおいて顕著な進歩を示してきました。特に、外部TTS(Best-of-N選択パラダイム)は、複数の独立して生成された推論軌道から選択することで、スケーラブルな性能向上をもたらします。しかし、このアプローチには重要な制約があります:(i)プロセス報酬モデルの展開に伴う高い計算コスト、(ii)LLMの内在的潜在表現の未活用です。本論文では、サンプラーLLMの隠れ状態を活用してプロセスレベルのスコアリングを行う、効率的かつ効果的なBest-of-NフレームワークであるTrajSelectorを紹介します。軽量な検証器(わずか0.6Bパラメータ)がステップごとの軌道の品質を評価し、これらのスコアを集約して最適な推論軌道を特定します。本フレームワークは、大規模なステップレベルのアノテーションに依存しない、完全にデータ駆動型のエンドツーエンドのトレーニングレシピを採用しています。5つのベンチマークでの実験結果は、TrajSelectorが一貫した性能向上をもたらすことを示しています。Best-of-32設定では、多数決を4.61%の精度で上回り、既存のプロセス報酬モデルを4.31%から12.21%上回りながら、推論コストを低く抑えています。
検索拡張生成(Retrieval-Augmented Generation, RAG)は、外部コーパスから関連文書を検索することで大規模言語モデル(LLMs)を強化する強力なパラダイムとして登場した。しかし、既存のRAGシステムは主に単一モダリティのテキスト文書に焦点を当てており、現実世界のシナリオではクエリと文書の両方がテキストや画像などの混合モダリティを含む場合にしばしば不十分である。本論文では、混合モダリティ情報を検索し推論することで視覚言語生成を改善するユニバーサル検索拡張生成(Universal Retrieval-Augmented Generation, URAG)の課題に取り組む。この目的のために、URAGシナリオに特化した統一的な混合モダリティ間リトリーバーであるNyxを提案する。現実的な混合モダリティデータの不足を緩和するため、ウェブ文書を活用して多様な混合モダリティの質問応答ペアを含むNyxQAデータセットを構築するための4段階の自動化パイプラインを導入する。この高品質なデータセットを基盤として、Nyxのための2段階のトレーニングフレームワークを採用する:まずNyxQAとさまざまなオープンソースの検索データセットで事前学習を行い、その後下流の視覚言語モデル(VLMs)からのフィードバックを用いて検索出力を生成の好みに合わせるための教師ありファインチューニングを行う。実験結果は、Nyxが標準的なテキストのみのRAGベンチマークで競争力のある性能を発揮するだけでなく、より一般的で現実的なURAG設定においても優れ、視覚言語タスクにおける生成品質を大幅に向上させることを示している。
大規模言語モデルは、推論タスクにおいて強力な性能を発揮し、競技レベルのコーディングや数学問題を解決しています。しかし、そのスケーラビリティは、人間によるラベル付きデータセットと、大規模で挑戦的なコーディング問題のトレーニングデータの不足によって制限されています。既存の競技コーディングデータセットは、数千から数万の問題しか含んでいません。従来の合成データ生成手法は、既存の指示データセットを拡張するか、人間によるラベル付きデータから挑戦的な問題を選択することに依存していました。本論文では、QueSTという新しいフレームワークを提案します。このフレームワークは、難易度を意識したグラフサンプリングと難易度を意識したリジェクト微調整を組み合わせ、挑戦的なコーディング問題を作成するために特化した生成器を直接最適化します。私たちが訓練した生成器は、GPT-4oと比較しても、下流の性能を向上させる挑戦的な問題を作成する能力において優れていることを示しています。QueSTを活用して大規模な合成コーディング問題を生成し、それを長い連鎖思考を持つ強力な教師モデルからの蒸留や、より小さなモデルのための強化学習に使用し、両方のシナリオで有効であることを証明しました。私たちの蒸留実験は、顕著な性能向上を示しています。具体的には、QueSTによって生成された100Kの難しい問題でQwen3-8B-baseを微調整した後、LiveCodeBenchにおいて元のQwen3-8Bの性能を上回りました。さらに112Kの例(つまり、28Kの人間が書いた問題と複数の合成ソリューションを組み合わせたもの)を追加することで、私たちの8Bモデルは、はるかに大規模なDeepSeek-R1-671Bの性能に匹敵しました。これらの発見は、QueSTを通じて複雑な問題を生成することが、大規模言語モデルの競技コーディングと推論のフロンティアを進めるための効果的でスケーラブルなアプローチを提供することを示しています。
大規模言語モデル(LLM)のアンサンブルは、個々のモデルの補完的な強みを活用することで、単一モデルの性能を超える有望なアプローチとして注目を集めています。特に、次のトークンを選択するためにモデルの次トークン確率分布を集約する方法は、さまざまなタスクで有効であることが示されています。しかし、短い回答では成功しているものの、長文生成への応用はまだ十分に検討されていません。本論文では、既存のアンサンブル手法を長文生成に適用する際には、アンサンブルを行う位置の慎重な選択が必要であることを示します。なぜなら、すべてのトークンでアンサンブルを行う標準的な手法は、しばしば性能を低下させるからです。我々は、これらの位置を決定するための2つの重要な要因を特定しました:モデル間のトークン化の不一致と、次トークン確率分布における合意です。これに基づいて、これらの要因を同時に考慮して選択的にアンサンブルを行うSAFE(Stable And Fast LLM Ensembling)フレームワークを提案します。さらに安定性を向上させるために、同じ単語を表す複数のサブワードトークンに分散した確率を単一の代表トークンに統合する確率シャープニング戦略を導入します。MATH500やBBHを含む多様なベンチマークでの実験により、SAFEが既存の手法を精度と効率の両面で上回り、1%未満のトークンをアンサンブルする場合でも性能向上を達成することを実証しました。
基盤モデルは様々な分野で有望な成果を示しているものの、天文学においては、その多様なデータモダリティを横断した統合的なモデリングのための枠組みがまだ確立されていません。本論文では、天文学向けの大規模マルチモーダル基盤モデルファミリーであるAION-1を提案します。AION-1は、異種の画像データ、分光データ、スカラーデータを統合するために、2段階のアーキテクチャを採用しています。具体的には、モダリティ固有のトークン化を行った後、トランスフォーマーベースのマスク付きモデリングを用いてクロスモーダルトークンシーケンスを処理します。このモデルは、Legacy Survey、Hyper Suprime-Cam (HSC)、Sloan Digital Sky Survey (SDSS)、Dark Energy Spectroscopic Instrument (DESI)、Gaiaという5つの大規模サーベイデータを用いて事前学習されています。これらは、恒星、銀河、クエーサーに関する2億以上の観測データを網羅しています。単一の凍結されたエンコーダを用いることで、AION-1は、銀河や恒星の特性推定、銀河の形態分類、類似性に基づく検索、銀河画像のセグメンテーション、スペクトル超解像といった幅広い下流タスクにおいて優れた結果を達成しています。我々は、300Mから3.1BパラメータまでのAION-1モデルのバリエーションを公開します。天文学を超えて、AION-1は、ノイズの多い機器固有の観測データをシームレスに統合可能な、スケーラブルなマルチモーダル科学基盤モデルの青写真を提供します。すべてのコード、トークナイザー、事前学習済みの重み、軽量な評価スイートは、オープンソースライセンスの下で公開されています。
推論時の探索によるスケーリングは大規模言語モデルに革命をもたらしましたが、これらの成果を画像生成に応用することは困難でした。連続的な拡散モデルに探索戦略を適用する最近の試みでは、単純なランダムサンプリングがしばしば最良の結果を示すなど、限定的な効果しか得られていません。本研究では、視覚的自回帰モデルの離散的で逐次的な性質が、画像生成における効果的な探索を可能にすることを実証します。ビームサーチがテキストから画像への生成を大幅に改善し、2Bパラメータの自回帰モデルが12Bパラメータの拡散モデルをベンチマーク全体で上回ることを示します。体系的なアブレーション研究により、この優位性は離散的トークン空間による早期の枝刈りと計算の再利用から生じることが明らかになり、検証器分析では速度と推論能力のトレードオフが浮き彫りになりました。これらの発見は、視覚生成における推論時の最適化には、スケールだけでなくモデルアーキテクチャが重要であることを示唆しています。
大規模言語モデル(LLMs)が自身の知識の境界を認識し、調整された信頼度を表現する能力である「正直さの整合性(Honesty Alignment)」は、信頼できる展開において不可欠である。既存の手法は、訓練不要の信頼度推定(例:トークン確率、自己一貫性)または正解アノテーションを用いた訓練ベースのキャリブレーションに依存している。これらの手法は有効であるが、訓練ベースのキャリブレーションを用いて普遍的な正直さの整合性を達成するには、大規模なラベリングが必要であり、コストがかかる。アノテーション効率の良い訓練を支援するため、我々は「Elicitation-Then-Calibration(EliCal)」という二段階のフレームワークを提案する。このフレームワークでは、まず低コストな自己一貫性の監視を用いて内部信頼度を引き出し、その後、少量の正解アノテーションを用いてこの信頼度をキャリブレーションする。大規模な研究を支援するため、我々は「HonestyBench」をリリースした。これは、正解と自己一貫性の信号がアノテーションされた56万の訓練インスタンスと7万の評価インスタンスを含む、10の自由形式QAデータセットをカバーするベンチマークである。実験結果は、EliCalがわずか1,000の正解アノテーション(完全監視の0.18%)でほぼ最適な整合性を達成し、未見のMMLUタスクにおいてキャリブレーションのみのベースラインよりも優れた整合性能を示すことを示しており、LLMsにおける普遍的な正直さの整合性に向けたスケーラブルなソリューションを提供する。
指示に基づく画像編集は目覚ましい進歩を遂げているが、教師ありファインチューニングのみで訓練されたモデルは、注釈されたパターンに過剰適合しがちであり、訓練分布を超えた探索や汎化能力を妨げる。この問題に対処するため、我々はポリシー最適化に基づく新しいポストトレーニングフレームワークであるEdit-R1を提案する。具体的には、フローマッチングの順方向プロセスと整合性のある尤度フリーのポリシー最適化手法であるDiffusion Negative-aware Finetuning (DiffusionNFT)を利用し、高次のサンプラーとより効率的な訓練を可能にする。ここでのもう一つの重要な課題は、編集指示やタスクの多様性に起因する普遍的な報酬モデルの欠如である。このギャップを埋めるため、我々はマルチモーダル大規模言語モデル(MLLM)を統一された訓練不要の報酬モデルとして採用し、その出力ロジットを利用して細かいフィードバックを提供する。さらに、MLLMのスコアリングノイズを低減し、最適化を安定化するために、低分散グループフィルタリングメカニズムを慎重に設計した。このフレームワークで訓練されたUniWorld-V2は、ImgEditおよびGEdit-Benchベンチマークでそれぞれ4.49と7.83のスコアを達成し、最先端の結果を実現した。重要なことに、我々のフレームワークはモデルに依存せず、Qwen-Image-EditやFLUX-Kontextなどの多様なベースモデルに適用した際にも大幅な性能向上をもたらし、その広範な適用性を実証している。コードとモデルはhttps://github.com/PKU-YuanGroup/UniWorld-V2で公開されている。
近年、トレーニング不要のアテンション制御手法の進展により、既存の生成モデルに対して柔軟かつ効率的なテキストガイド編集機能が実現されています。しかし、現在の手法では、編集の強度を高めつつ、ソースとの一貫性を維持することが困難です。この制限は、複数回の編集や動画編集において特に顕著であり、視覚的な誤差が時間とともに蓄積する可能性があります。さらに、既存の手法の多くはグローバルな一貫性を強制するため、テクスチャなどの個別の属性を変更しつつ他の属性を維持する能力が制限され、細かい編集が妨げられています。最近、U-NetからMM-DiTへのアーキテクチャの移行により、生成性能が大幅に向上し、テキストと視覚モダリティを統合する新たなメカニズムが導入されました。これらの進展により、従来の手法では解決できなかった課題を克服する道が開かれました。MM-DiTのアテンションメカニズムを詳細に分析することで、その重要な洞察を3つ特定しました。これらを基に、MM-DiTに特化した新しいアテンション制御手法であるConsistEditを提案します。ConsistEditは、視覚のみのアテンション制御、マスクガイドによる事前アテンション融合、およびクエリ、キー、バリュートークンの差別化された操作を組み込み、一貫性のあるプロンプトに沿った編集を実現します。広範な実験により、ConsistEditが構造的一貫性のあるシナリオと構造的一貫性のないシナリオを含む、幅広い画像および動画編集タスクにおいて最先端の性能を達成することが示されました。従来の手法とは異なり、手作業を必要とせずにすべての推論ステップとアテンションレイヤーにわたって編集を行う初めてのアプローチであり、信頼性と一貫性を大幅に向上させ、堅牢な複数回および複数領域の編集を可能にします。さらに、構造的一貫性の段階的な調整をサポートし、より細かい制御を実現します。
AI研究の再現は、大規模言語モデル(LLM)エージェントにとって重要でありながらも困難な課題である。既存のアプローチでは、実行可能なコードを生成することがしばしば困難であり、その主な原因は背景知識の不足と、参照論文に隠された技術的な詳細を捉えられない検索拡張生成(RAG)手法の限界にある。さらに、従来のアプローチでは、貴重な実装レベルのコードシグナルを見落としがちであり、多粒度の検索と再利用をサポートする構造化された知識表現が欠如している。これらの課題を克服するため、我々は実行可能な知識グラフ(xKG)を提案する。これは、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュール式でプラグ可能な知識ベースである。xKGを3つのエージェントフレームワークと2つの異なるLLMに統合した結果、PaperBenchにおいて大幅な性能向上(o3-miniで10.9%)を示し、自動化されたAI研究再現のための一般的かつ拡張可能なソリューションとしての有効性を実証した。コードはhttps://github.com/zjunlp/xKGで公開される。
長文の連鎖思考推論は、大規模言語モデルにおける高度な推論の基盤となっている。最近の検証・改良フレームワークにより、専有モデルがオリンピアドレベルの問題を解決できるようになったが、その有効性は強力で信頼性の高い検証と修正能力に依存しており、オープンウェイトの小規模モデルでは依然として脆弱である。本研究では、困難なタスクにおける弱い検証・改良能力であっても、確率的パラダイムであるDeep Self-Evolving Reasoning (DSER) を通じて、そのようなモデルの推論限界を大幅に拡張できることを示す。反復推論をマルコフ連鎖として概念化し、各ステップが解空間における確率的遷移を表す。重要な洞察は、改善の確率が劣化の確率をわずかに上回る限り、正しい解への収束が保証されることである。DSERは、複数の長期的な自己進化プロセスを並列に実行することで、これらの小さなポジティブな傾向を増幅し、モデルが漸近的に正解に近づくことを可能にする。実証的に、DSERをDeepSeek-R1-0528-Qwen3-8Bモデルに適用した。挑戦的なAIME 2024-2025ベンチマークにおいて、DSERは以前解決できなかった9問中5問を解決し、全体のパフォーマンスを向上させ、このコンパクトモデルが多数決を通じて600Bパラメータの教師モデルの単一ターン精度を上回ることを可能にした。テスト時のスケーリングにおける即時の有用性を超えて、DSERフレームワークは、現在のオープンウェイト推論モデルの根本的な限界を診断する役割を果たす。自己検証、改良、安定性における欠点を明確に描き出すことで、我々の知見は、強力な内在的な自己進化能力を持つ次世代モデルの開発に向けた明確な研究課題を確立する。
事前学習済み時系列モデルは、タスク固有の学習を必要とせずに正確な予測を生成する推論専用の予測システムを可能にしました。しかし、既存のアプローチは主に単変量予測に焦点を当てており、多変量データや共変量が重要な役割を果たす現実世界のシナリオでの適用性が制限されています。本論文では、単変量、多変量、および共変量を考慮した予測タスクをゼロショットで処理可能な事前学習済みモデルであるChronos-2を提案します。Chronos-2は、グループ内の複数の時系列間で効率的な情報共有を促進するグループアテンションメカニズムを採用しており、これにより、関連する系列の集合、多変量系列の変量、または予測タスクにおけるターゲットと共変量を表すグループ内での文脈内学習(ICL)を可能にします。これらの汎用的な能力は、単変量系列に多様な多変量構造を課す合成データセットでの学習を通じて実現されています。Chronos-2は、fev-bench、GIFT-Eval、およびChronos Benchmark IIという3つの包括的なベンチマークで最先端の性能を発揮します。特に、多変量および共変量を考慮した予測を重視するfev-benchでは、Chronos-2の汎用的なICL能力により、既存モデルを大幅に上回る改善が見られます。共変量を伴うタスクでは、一貫してベースラインを大きく上回る性能を示します。エネルギーおよび小売業界でのケーススタディは、その実用的な利点をさらに強調しています。Chronos-2の文脈内学習能力は、現実世界の予測パイプラインで「そのまま」使用可能な汎用予測モデルとしての地位を確立しています。
エージェンシックAIの急速な進化は、人工知能の新たな段階を画するものであり、大規模言語モデル(LLMs)が単に応答するだけでなく、行動し、推論し、適応するようになったことを示している。本調査は、エージェンシックAIの構築におけるパラダイムシフトを追跡するものである。すなわち、計画、ツール使用、記憶が外部のロジックによって調整されるパイプライン型システムから、これらの能力がモデルのパラメータ内に内在化される新興のモデルネイティブパラダイムへの移行である。まず、このパラダイムシフトを可能にするアルゴリズムエンジンとして強化学習(RL)を位置づける。静的データの模倣から結果駆動型探索へと学習を再定義することで、RLは言語、視覚、身体化領域にわたるLLM + RL + タスクの統一されたソリューションを支える。これを基盤として、本調査は、各能力——計画、ツール使用、記憶——が外部スクリプト化されたモジュールからエンドツーエンドで学習された行動へとどのように進化してきたかを体系的にレビューする。さらに、このパラダイムシフトが主要なエージェントアプリケーション、特に長期的推論を重視するディープリサーチエージェントと身体化インタラクションを重視するGUIエージェントをどのように再形成したかを検証する。最後に、マルチエージェント協調やリフレクションといったエージェンシック能力の継続的な内在化、および将来のエージェンシックAIにおけるシステム層とモデル層の役割の進化について議論する。これらの発展は、統合された学習およびインタラクションフレームワークとしてのモデルネイティブエージェンシックAIへの一貫した軌跡を描き、知能を適用するシステムを構築することから、経験を通じて知能を成長させるモデルを開発することへの移行を示している。
MetaのCodec Avatars Labは、Embody 3Dを紹介します。これは、マルチカメラ収集ステージで439名の参加者から収集された500時間に及ぶ3Dモーションデータのマルチモーダルデータセットであり、追跡された3Dモーションのフレーム数は5400万を超えます。このデータセットは、指示された動き、手のジェスチャー、移動などの単独のモーションデータに加えて、ディスカッション、異なる感情状態での会話、共同活動、アパートのような空間での共同生活シナリオなどの複数人の行動および会話データを幅広くカバーしています。各参加者に対して、手の追跡や体型を含む人間のモーション、テキストアノテーション、および別々のオーディオトラックを提供しています。
最近の画像生成技術の進歩、特にGPT-4o Image Genのような独自システムによって、ユーザーがこれらのモデルとどのように関わるかが定期的に再定義されています。既存のベンチマークはしばしば遅れをとり、これらの新たなユースケースを捉えられず、コミュニティの進歩に対する認識と正式な評価との間にギャップを生んでいます。この問題に対処するため、私たちはECHOを提案します。これは、モデルの使用に関する実世界の証拠、つまり新しいプロンプトと定性的なユーザー評価を紹介するソーシャルメディアの投稿から直接ベンチマークを構築するフレームワークです。このフレームワークをGPT-4o Image Genに適用し、そのような投稿からキュレーションされた31,000以上のプロンプトのデータセットを構築しました。私たちの分析によると、ECHOは(1)既存のベンチマークにはない創造的で複雑なタスク(例えば、言語を超えた製品ラベルの再レンダリングや指定された合計金額の領収書の生成)を発見し、(2)最先端のモデルと代替モデルをより明確に区別し、(3)モデルの品質を測定するための指標(例えば、観察された色、アイデンティティ、構造の変化を測定する)の設計に役立つコミュニティのフィードバックを浮き彫りにします。私たちのウェブサイトはhttps://echo-bench.github.ioにあります。
エージェンシック強化学習(RL)は、大規模言語モデルに推論中に自律的にツールを呼び出すことを訓練し、検索が最も一般的な応用となっている。これらのモデルは多段階の推論タスクに優れているが、その安全性に関する特性は十分に理解されていない。本研究では、RLで訓練された検索モデルが指示チューニングからの拒否を継承し、有害なリクエストを安全なクエリに転換することでしばしば回避することを示す。しかし、この安全性は脆弱である。モデルに検索から応答を開始させる(検索攻撃)と、モデルに繰り返し検索を促す(マルチ検索攻撃)という2つの単純な攻撃により、有害な検索と回答の連鎖が引き起こされる。ローカル検索とウェブ検索の両方を用いた2つのモデルファミリー(Qwen、Llama)において、これらの攻撃により拒否率が最大60.0%、回答の安全性が82.5%、検索クエリの安全性が82.4%低下する。これらの攻撃は、モデルが継承された拒否トークンを生成する前に、有害なリクエストを反映した検索クエリを生成するよう誘導することで成功する。これは、現在のRL訓練の核心的な弱点を露呈している:効果的なクエリの継続的な生成を報酬としており、その有害性を考慮していない。その結果、RL検索モデルにはユーザーが容易に悪用できる脆弱性が存在し、安全な検索を最適化する安全性を考慮したエージェンシックRLパイプラインの開発が急務である。
コンピュータ利用のためのマルチモーダルエージェントは、正確な視覚的基盤と長い実行チェーンを必要とする原始的なアクション(クリック、タイプ、スクロール)に完全に依存しており、連鎖的な失敗やパフォーマンスのボトルネックを引き起こしています。他のエージェントが豊富なプログラムインターフェース(API、MCPサーバー、ツール)を活用する一方で、コンピュータ利用エージェント(CUA)はこれらの機能から隔離されたままです。本論文では、このギャップを埋めるための基盤モデルであるUltraCUAを提案します。UltraCUAは、GUIの原始的なアクションと高レベルのプログラムツール呼び出しをシームレスに統合するハイブリッドアクションを実現します。これを達成するために、我々のアプローチは以下の4つの主要なコンポーネントで構成されています:(1)ソフトウェアドキュメンテーション、オープンソースリポジトリ、およびコード生成からプログラムツールをスケーリングする自動化パイプライン、(2)実世界のコンピュータ利用シナリオにわたる17,000以上の検証可能なタスクを生成する合成データエンジン、(3)低レベルのGUIアクションと高レベルのプログラムツール呼び出しの両方を含む大規模で高品質なハイブリッドアクショントラジェクトリの収集、(4)教師ありファインチューニングとオンライン強化学習を組み合わせた2段階のトレーニングパイプラインで、低レベルと高レベルのアクションを戦略的に切り替えることを可能にします。7Bおよび32Bモデルを用いた実験では、最先端のエージェントを大幅に上回る改善が示されました。OSWorldでは、UltraCUAモデルはベースモデルに対して平均22%の相対的な改善を達成し、ステップ数において11%高速でした。WindowsAgentArenaでのドメイン外評価では、我々のモデルが21.7%の成功率に達し、Windowsデータでトレーニングされたベースラインを上回りました。ハイブリッドアクションメカニズムは、実行効率を維持しながらエラーの伝播を減少させる点で重要であることが証明されました。
情報が指数関数的に増加する中、企業は非構造化データを一貫性のある実践可能な洞察へと変換するための圧力をますます受けている。自律エージェントは有望であるものの、ドメイン固有のニュアンス、意図の整合性、および企業統合においてしばしば課題に直面する。本論文では、エンタープライズ・ディープ・リサーチ(EDR)を提案する。EDRは、(1)適応的クエリ分解を行うマスタープランニングエージェント、(2)4つの専門検索エージェント(一般、学術、GitHub、LinkedIn)、(3)NL2SQL、ファイル分析、およびエンタープライズワークフローをサポートする拡張可能なMCPベースのツールエコシステム、(4)データ駆動型の洞察を提供するビジュアライゼーションエージェント、(5)知識ギャップを検出し、オプションで人間の介入によるガイダンスを用いて研究方向を更新するリフレクションメカニズムを統合したマルチエージェントシステムである。これらのコンポーネントにより、自動化されたレポート生成、リアルタイムストリーミング、シームレスなエンタープライズ展開が可能となり、内部データセットで検証されている。DeepResearch BenchやDeepConsultなどのオープンエンドのベンチマークにおいて、EDRは人間の介入なしに最先端のエージェントシステムを上回る性能を示す。我々は、EDRフレームワークとベンチマーク軌跡を公開し、マルチエージェント推論アプリケーションの研究を推進する。 コードはhttps://github.com/SalesforceAIResearch/enterprise-deep-research、データセットはhttps://huggingface.co/datasets/Salesforce/EDR-200にて公開されている。
知識ベース視覚質問応答(KB-VQA)では、視覚言語モデル(VLM)が視覚的理解と外部知識検索を統合する必要がある。検索拡張生成(RAG)は、知識ベースのクエリを組み合わせることでこのタスクにおいて大きな進展を遂げているが、マルチモーダルクエリの品質と検索結果の関連性において依然として課題を抱えている。これらの課題を克服するため、我々は「Wiki-PRF」と称する新たな三段階の手法を提案する。この手法は、処理、検索、フィルタリングの段階から構成される。処理段階では、視覚ツールを動的に呼び出して正確なマルチモーダル情報を抽出し、検索に活用する。検索段階では、視覚的特徴とテキスト特徴を統合し、マルチモーダル知識検索を実現する。フィルタリング段階では、検索結果に対して関連性フィルタリングと集中処理を行う。これにより、回答精度と形式一貫性を報酬信号として強化学習方式で訓練された視覚言語モデルを導入する。これにより、モデルの推論能力、正確なクエリのためのツール呼び出し、および無関係なコンテンツのフィルタリングが強化される。ベンチマークデータセット(E-VQAおよびInfoSeek)での実験では、回答品質において大幅な改善(36.0および42.8)が確認され、最先端の性能を達成した。コードはhttps://github.com/cqu-student/Wiki-PRFで公開されている。
大規模言語モデル(LLMs)、例えばOpenAI-o1やDeepSeek-R1は、強力な推論能力を示している。LLMの能力をさらに向上させるために、最近のエージェントシステム、例えばDeep Researchは、ウェブインタラクションをLLMの推論に組み込み、不確実性を軽減し、潜在的なエラーを減少させている。しかし、既存の研究は主に推論性能に焦点を当てており、エージェントシステムの効率性をしばしば無視している。本研究では、ウェブインタラクティブなエージェントシステムにおける効率性のボトルネックを特定する包括的な実証研究を提示する。エンドツーエンドのレイテンシを、LLM APIレイテンシとウェブ環境レイテンシの2つの主要な要素に分解する。15のモデルと5つのプロバイダーにわたる包括的な実証研究を行い、APIベースのエージェントシステムにおける高い変動性を実証する。ウェブ環境レイテンシが、ウェブベースのエージェントシステム全体のレイテンシの最大53.7%を占めることを観察する。レイテンシを改善するために、SpecCacheという、投機的実行を強化したキャッシングフレームワークを提案し、ウェブ環境のオーバーヘッドを削減する。2つの標準ベンチマークでの広範な評価により、本アプローチがランダムキャッシング戦略と比較してキャッシュヒット率を最大58倍向上させ、ウェブ環境のオーバーヘッドを最大3.2倍削減しつつ、エージェントシステムの性能を低下させないことを示す。
視覚と言語を統合したモデル(Vision-and-Language Models, VLMs)は、単一ターンのベンチマークにおいて印象的な性能を示しているが、現実世界のアプリケーションではより複雑な多ターン対話が求められることが多い。既存の多ターンデータセット(例:MMDU、ConvBench)は、ユーザーが遭遇する会話シナリオの広がりと深さを部分的にしか捉えていない。本研究では、12の多様なVLM評価ベンチマークから導出された647の対話(各対話は平均4ターン)を特徴とする新しい多ターン会話ベンチマーク「MultiVerse」を提案する。484のタスクと484のインタラクション目標を備えたMultiVerseは、事実知識や知覚から数学やコーディングなどの高度な推論タスクまで、幅広いトピックをカバーしている。堅牢な評価を促進するため、GPT-4oを自動評価者として活用したチェックリストベースの評価手法を提案し、知覚精度、言語的明瞭さ、事実の正確性など37の主要な側面にわたって性能を測定する。MultiVerseを用いて18のVLMを評価した結果、最も強力なモデル(例:GPT-4o)でさえ複雑な多ターン会話において50%の成功率しか達成できないことが明らかとなり、データセットの挑戦的な性質が浮き彫りとなった。特に、完全な対話コンテキストを提供することが、小型または弱いモデルの性能を大幅に向上させることを発見し、コンテキスト内学習の重要性を強調した。我々は、MultiVerseがVLMの多ターンインタラクション能力を評価するための重要な基盤であると考える。
大規模推論モデル(LRM)の最近の進展により、数学やコーディングなどの複雑なタスクにおいて、長い連鎖的思考(Chain-of-Thought, CoT)トレースを生成することで顕著な性能が実現されている。本論文では、プロンプトに悪意を持って埋め込まれた無関係ながら複雑なタスクによってLRMが本来の目的から逸脱する「推論分散」という重要な脆弱性を特定し、体系的に分析する。多様なモデルとベンチマークを用いた包括的な研究を通じて、最先端のLRMでさえこの脆弱性に非常に敏感であり、注入された分散要素によってタスクの精度が最大60%低下することを示す。さらに、特定のアライメント技術がこの弱点を増幅する可能性があり、モデルが隠れた敵対的指示に従いながら、最終出力ではそれを隠蔽する「隠れた従順性」を示すことを明らかにする。これらのリスクを軽減するため、合成敵対データを用いた教師付き微調整(Supervised Fine-Tuning, SFT)と強化学習(Reinforcement Learning, RL)を組み合わせたトレーニングベースの防御手法を提案し、困難な分散攻撃に対してロバスト性を50ポイント以上向上させる。我々の知見は、推論分散がLRMの信頼性に対する明確かつ緊急の脅威であることを確立し、より安全で信頼性の高い推論システムに向けた実践的な一歩を提供する。
専門的な生成評価モデルのファインチューニングは、トレーニング時およびテスト時のスケーラブルな評価に対する需要の高まりに対応するための一般的なパラダイムとして登場している。しかし、最近の研究は主に強化学習(RL)などの新しい方法論を評価モデルのトレーニングに適用することに焦点を当てており、大規模なデータ駆動型の開発からは遠ざかっている。本研究では、データスケーリングに焦点を当て、5つのユニークな評価タスク(ペアワイズ、ステップレベル、リファレンスフリーおよびリファレンスベースの検証、単一評価)と推論評価に焦点を当てた複数のドメインにわたる250万サンプルのデータセットをキュレーションした。このデータを用いて、8Bおよび20B(アクティブな3.6B)パラメータの評価モデルファミリーであるFoundational Automatic Reasoning Evaluators(FARE)を、シンプルな反復的拒否サンプリングによる教師ありファインチューニング(SFT)アプローチでトレーニングした。FARE-8Bは、より大規模なRLトレーニングされた専門評価モデルに挑戦し、FARE-20Bはオープンソースの評価モデルの新たな基準を設定し、専門的な70B+評価モデルを凌駕した。静的ベンチマークを超えて、FAREを現実世界のタスクで評価した:推論時のリランカーとして、FARE-20BはMATHにおいてほぼオラクル性能を達成した。RLトレーニングにおける検証器として、FAREは下流のRLトレーニングされたモデルの性能を文字列マッチング検証器に対して最大14.1%向上させた。FAREから初期化された継続的ファインチューニングされたFARE-Codeは、テストケースの品質評価においてgpt-oss-20Bを65%上回った。
もしAIによるクジラ語から英語への翻訳機を持っていたとして、それが機能しているかどうかをどのように検証できるだろうか?動物との相互作用や、温度などの実証的な観測に頼る必要があるのだろうか?本論文では、理論的かつ概念実証的な実験的証拠を提示し、十分に複雑な言語においては、相互作用や観測さえも必要ない可能性を示唆する。翻訳機の評価は、その英語出力のみに基づいて行うことが可能であり、安全性、倫理性、コストの面で潜在的な利点を提供する。これは、参照訳文が利用できない状況での機械翻訳品質評価(MTQE)の一例である。主要な課題は、「幻覚」、つまり流暢で妥当に見える誤った翻訳を識別することである。我々は、セグメントごとの翻訳と古典的なNLPシャッフルテストを組み合わせて翻訳機を評価することを提案する。このアイデアは、動物のコミュニケーションを順番に翻訳し、その結果の翻訳が順序を入れ替えた場合よりも意味をなす頻度を評価するものである。データが不足している人間の言語や人工言語を用いた概念実証実験は、この評価方法論の有用性を示している。これらの人間の言語実験は、データ不足下での参照訳文なしの評価指標を検証するためにのみ行われた。この指標は、我々の実験で利用可能な参照訳文に基づく標準的な評価と高い相関があることがわかった。また、翻訳を学ぶ初期段階において、相互作用が必ずしも必要ではなく、効率的でもないことを示唆する理論的分析も行った。
本研究は、衛星画像の土地利用分類のためのカスタム畳み込みニューラルネットワークアーキテクチャを体系的に調査し、事前学習済みモデルに依存せずにEuroSATデータセットで97.23%のテスト精度を達成した。3つの段階的なアーキテクチャ改良(ベースライン:94.30%、CBAM強化:95.98%、バランス型マルチタスク注意機構:97.23%)を通じて、衛星画像分類における特定の失敗モードを特定し、対処した。主な貢献は、空間的特徴抽出のためのCoordinate Attentionとスペクトル特徴抽出のためのSqueeze-Excitationブロックを、学習可能な融合パラメータで統合した新規のバランス型マルチタスク注意機構である。実験結果から、この学習可能なパラメータは約0.57のアルファ値に自律的に収束し、衛星画像における空間的モダリティとスペクトルモダリティの重要性がほぼ同等であることが示された。過学習と混同行列の不均衡に対処するため、ネットワークの深さに応じた段階的DropBlock正則化(5-20%)とクラスバランス型損失重み付けを採用した。最終的な12層アーキテクチャはCohenのカッパ値0.9692を達成し、全てのクラスで94.46%以上の精度を示し、正解と不正解の予測間の24.25%のギャップで信頼度較正を実証した。本手法は、外部データを必要とせずにファインチューニング済みResNet-50(98.57%)の1.34%以内の性能を達成し、ドメイン固有アプリケーションにおける体系的なアーキテクチャ設計の有効性を検証した。完全なコード、学習済みモデル、評価スクリプトを公開している。
効果的なエージェントシステムを設計するためには、動的かつ不確実な環境において、エージェント、ツール、およびモデルをシームレスに構成し統合することが必要である。既存の手法の多くは、ツールやエージェントの発見に静的で意味論的な検索アプローチを依存している。しかし、既存コンポーネントの効果的な再利用と構成は、不完全な能力記述や検索手法の限界により依然として困難である。コンポーネント選択は、能力、コスト、およびリアルタイムの有用性に基づかない意思決定のために苦しんでいる。これらの課題に対処するため、ナップサック問題に着想を得た構造化された自動化フレームワークを導入する。本フレームワークは、コンポーザーエージェントが性能、予算制約、および互換性を総合的に考慮して、最適なエージェントコンポーネントのセットを体系的に識別、選択、および組み立てることを可能にする。候補コンポーネントを動的にテストし、その有用性をリアルタイムでモデル化することにより、本アプローチはエージェントシステムの組み立てを効率化し、リソースのスケーラブルな再利用を促進する。Claude 3.5 Sonnetを用いた5つのベンチマークデータセットでの実証評価により、オンラインナップサックベースのコンポーザーが一貫してパレートフロンティア上に位置し、ベースラインと比較して大幅に低いコンポーネントコストで高い成功率を達成することが示された。単一エージェント設定では、オンラインナップサックコンポーザーは検索ベースラインと比較して最大31.6%の成功率向上を示した。マルチエージェントシステムでは、100以上のエージェントインベントリからエージェントを選択する場合、オンラインナップサックコンポーザーは成功率を37%から87%に向上させた。この大幅な性能差は、多様なドメインと予算制約にわたる本手法の堅牢な適応性を確認するものである。
外観を3Dアセットに転送する際に、画像やテキストなどの異なる表現形式を用いる手法は、ゲーム、拡張現実、デジタルコンテンツ作成などの産業における幅広い応用可能性から注目を集めている。しかし、最新の手法でも、入力と外観オブジェクト間の幾何学的構造が大きく異なる場合には失敗することが多い。直接3D生成モデルを適用する単純なアプローチでは、魅力的な結果が得られないことを示す。代わりに、普遍的なガイダンスに着想を得た原理に基づくアプローチを提案する。画像やテキストを条件とした事前学習済みの整流フローモデルを基に、サンプリングプロセスに対して定期的にガイダンスを追加するトレーニング不要の手法を採用する。このガイダンスは微分可能な損失関数としてモデル化でき、外観に対する部分認識損失や自己類似性を含む2種類のガイダンスを実験的に検証する。実験結果から、提案手法がテクスチャや幾何学的詳細を入力3Dアセットに成功裏に転送し、定性的および定量的にベースラインを上回ることが示された。また、従来の評価指標は、局所的な詳細に焦点を当てたり、グラウンドトゥルースデータがない状況で異なる入力を比較したりする能力に欠けるため、このタスクの評価には不適切であることを示す。そこで、GPTベースのシステムを用いて外観転送の品質を客観的にランク付けし、堅牢で人間らしい評価を確保する。ユーザスタディによってもこの評価が裏付けられる。提示されたシナリオを超えて、提案手法は一般的であり、異なるタイプの拡散モデルやガイダンス関数に拡張可能である。
複雑な推論タスクにおける人間とAIの効果的な協働には、ユーザーがモデルのプロセスを理解し、それと対話することが必要であり、単に出力を受け取るだけでは不十分である。しかし、Chain-of-Thought(CoT)のような手法から得られる単一のテキストは、現在のインターフェースがリアルタイムの言語化と堅牢なユーザー割り込みを欠いているため、これを妨げている。本論文では、AsyncVoice Agentを紹介する。このシステムは、非同期アーキテクチャを採用し、ストリーミングLLMバックエンドと会話型音声フロントエンドを分離している。この設計により、ナレーションと推論が並行して実行され、ユーザーはモデルの推論プロセスをいつでも中断し、質問し、方向付けることができる。客観的なベンチマークによると、このアプローチは単一のベースラインと比較してインタラクションの遅延を600倍以上削減しつつ、高い忠実性と競争力のあるタスク精度を確保している。モデルの思考プロセスとの双方向対話を可能にすることで、AsyncVoice Agentは、高リスクタスクにおいてより効果的で制御可能かつ信頼性の高い人間-AIシステムを構築するための新たなパラダイムを提供する。
大規模言語モデルは、真実性と卑屈なお世辞との間に構造的なトレードオフを内在化しており、これは有用性を丁寧な服従と混同する報酬最適化から生じる。この潜在的なバイアスは、シコファンシー(ご機嫌取り)として知られ、原則に基づく推論よりもユーザーとの同意を優先する傾向として現れる。本研究では、会話の文脈に依存せずにこのバイアスを単離する単一ターン強制選択ベンチマーク「Beacon」を導入し、事実の正確性と従属的バイアスとの緊張関係を精密に測定することを可能にする。12の最先端モデルにわたる評価により、シコファンシーは安定した言語的および感情的なサブバイアスに分解され、それぞれがモデルの能力に比例して拡大することが明らかになった。さらに、これらのバイアスを相反する方向に調整するプロンプトレベルおよび活性化レベルの介入を提案し、真実性と社会的に順応した判断との間の動的な多様体としてのアラインメントの内部幾何学を明らかにする。Beaconは、シコファンシーを測定可能な規範的誤一般化として再定義し、大規模生成システムにおけるアラインメントの逸脱を研究し緩和するための再現可能な基盤を提供する。
テストタイムスケーリング(TTS)は、数学やコーディングなどのさまざまなタスクにおいて推論モデル(RMs)の性能を向上させてきたが、機械翻訳(MT)における有効性はまだ十分に検証されていない。本論文では、推論時の計算量の増加が翻訳品質を向上させるかどうかを調査する。複数のドメインにわたる多様なMTベンチマークにおいて12のRMsを評価し、直接翻訳、強制推論外挿、およびポストエディットの3つのシナリオを検証する。その結果、汎用RMsにおいて、TTSは直接翻訳に対して限定的かつ一貫性のない効果しかもたらさず、性能はすぐに頭打ちになることがわかった。しかし、ドメイン固有のファインチューニングを行うことで、モデルの推論プロセスをタスクの要求に合わせることができ、最適な自己決定された推論深度まで一貫した改善が得られることが明らかになった。また、モデルに自然な停止点を超えて推論を強制すると、翻訳品質が一貫して低下することも確認された。一方、TTSはポストエディットの文脈では非常に有効であり、自己修正を有益なプロセスに変えることができた。これらの結果は、MTにおける推論時の計算量の価値は、汎用モデルによる単一パスの翻訳を強化することではなく、多段階の自己修正ワークフローやタスク特化モデルとの組み合わせといった特定のアプリケーションにあることを示唆している。
AIシステムが進化するにつれ、私たちは意思決定においてAIに依存する度合いを増しています。そのような意思決定が人間の価値観と整合することを保証するためには、AIがどのような決定を下すかだけでなく、どのようにその決定に至ったかを理解することが不可欠です。推論言語モデルは、最終的な回答と(部分的に透明な)中間的な思考の痕跡を提供するため、AIの手続き的推論を研究するのに適した機会を提供します。数学やコードの問題には客観的に正しい答えが存在することが多いのに対し、道徳的ジレンマは複数の正当化可能な結論が存在するため、プロセス重視の評価を行うのに最適なテストベッドとなります。これを実現するため、私たちはMoReBenchを提示します:1,000の道徳的シナリオと、各シナリオについて専門家が推論時に含める(または避ける)べきと考える必須のルーブリック基準をペアにしたものです。MoReBenchには、道徳的考慮事項の特定、トレードオフの検討、実行可能な推奨事項の提供など、AIが人間に道徳的決定を助言する場合や自律的に道徳的決定を行う場合をカバーする23,000以上の基準が含まれています。また別途、MoReBench-Theoryとして、AIが規範倫理学の5つの主要なフレームワーク下で推論できるかをテストする150の例をキュレーションしました。私たちの結果は、スケーリング則や数学、コード、科学的推論タスクに関する既存のベンチマークが、モデルの道徳的推論能力を予測するのに失敗することを示しています。また、モデルは特定の道徳的フレームワーク(例えばベンサム流の行為功利主義やカントの義務論)に対して偏りを示しており、これは一般的なトレーニングパラダイムの副作用である可能性があります。これらのベンチマークは、より安全で透明性の高いAIに向けたプロセス重視の推論評価を前進させるものです。