翻訳付きの日次キュレーションされたAI研究論文
推論は知性の核心に位置し、意思決定を行い、結論を導き、領域を超えて一般化する能力を形作る。人工知能において、システムがますますオープンで不確実かつマルチモーダルな環境で動作するにつれ、推論は堅牢で適応的な行動を可能にするために不可欠となっている。大規模マルチモーダル推論モデル(LMRMs)は、テキスト、画像、音声、ビデオなどのモダリティを統合し、複雑な推論能力をサポートし、包括的な知覚、正確な理解、深い推論を目指す有望なパラダイムとして登場した。研究が進むにつれ、マルチモーダル推論はモジュール型で知覚主導のパイプラインから、より一貫したクロスモーダル理解を提供する統一された言語中心のフレームワークへと急速に進化してきた。命令チューニングや強化学習によりモデルの推論が改善された一方で、オムニモーダル一般化、推論の深さ、エージェント的行動において依然として大きな課題が残されている。これらの問題に対処するため、本論文ではマルチモーダル推論研究の包括的かつ構造化された調査を提示し、分野の設計哲学の変化と新たな能力を反映した4段階の発展ロードマップに沿って整理する。まず、タスク固有のモジュールに基づく初期の取り組みをレビューし、表現、アラインメント、融合の各段階に推論が暗黙的に埋め込まれていたことを確認する。次に、マルチモーダルLLMに推論を統合する最近のアプローチを検討し、マルチモーダル連鎖思考(MCoT)やマルチモーダル強化学習などの進展により、より豊かで構造化された推論連鎖が可能になったことを示す。最後に、OpenAI O3およびO4-miniの挑戦的なベンチマークと実験ケースからの実証的知見を基に、複雑な現実世界の環境においてスケーラブルでエージェント的かつ適応的な推論と計画をサポートすることを目指すネイティブ大規模マルチモーダル推論モデル(N-LMRMs)の概念的方向性について議論する。
我々は、フローマッチングモデルにオンライン強化学習(RL)を統合した初の手法であるFlow-GRPOを提案する。本手法では、以下の2つの主要な戦略を採用している:(1) 決定論的な常微分方程式(ODE)を等価な確率微分方程式(SDE)に変換するODE-to-SDE変換。これにより、元のモデルの周辺分布を全てのタイムステップで一致させ、RL探索のための統計的サンプリングを可能にする。(2) デノイジングステップ数を削減しつつ、元の推論タイムステップ数を維持するDenoising Reduction戦略。これにより、性能を損なうことなくサンプリング効率を大幅に向上させる。実験的に、Flow-GRPOは複数のテキストから画像へのタスクにおいて有効であることが示された。複雑な構図において、RLで調整されたSD3.5は、オブジェクトの数、空間的関係、細かな属性をほぼ完璧に生成し、GenEvalの精度を63%から95%に向上させた。視覚的テキストレンダリングでは、精度が59%から92%に改善され、テキスト生成が大幅に向上した。Flow-GRPOはまた、人間の嗜好との整合性においても大幅な向上を達成した。特に、リワードハッキングはほとんど発生せず、報酬が画像品質や多様性を犠牲にして増加することはなく、両者は実験中に安定していた。
テキストプロンプトから物理的に安定したLEGOブロックモデルを生成する初のアプローチとして、LegoGPTを紹介します。これを実現するため、物理的に安定した大規模なLEGOデザインデータセットとそれに関連するキャプションを構築し、自己回帰型の大規模言語モデルを訓練して、次のトークン予測を通じて追加すべき次のブロックを予測します。生成されるデザインの安定性を向上させるため、自己回帰推論中に効率的な妥当性チェックと物理法則を考慮したロールバックを採用し、物理法則と組み立て制約に基づいて実行不可能なトークン予測を枝刈りします。実験結果から、LegoGPTが安定性、多様性、美的魅力を兼ね備えたLEGOデザインを生成し、入力テキストプロンプトに密接に沿っていることが示されています。また、色付きでテクスチャ化されたデザインを生成するためのテキストベースのLEGOテクスチャリング手法も開発しました。私たちのデザインは、人間による手動組み立てとロボットアームによる自動組み立ての両方が可能であることを示しています。さらに、28,000以上のユニークな3Dオブジェクトに伴う47,000以上のLEGO構造と詳細なキャプションを含む新しいデータセットStableText2Legoを公開し、コードとモデルをプロジェクトウェブサイト(https://avalovelace1.github.io/LegoGPT/)で提供しています。
大規模言語モデル(LLM)がテキストだけでなく人間をどれだけ理解しているかを評価することは、依然として未解決の課題である。このギャップを埋めるため、我々は「Sentient Agent as a Judge(SAGE)」を導入する。これは、LLMの高次社会的認知を測定する自動評価フレームワークである。SAGEは、人間のような感情変化や内面的思考をシミュレートするSentient Agentを具現化し、多ターン会話における被検証モデルのより現実的な評価を提供する。各ターンにおいて、エージェントは(i)自身の感情がどのように変化するか、(ii)どのように感じているか、(iii)どのように返信すべきかを推論し、数値的な感情軌跡と解釈可能な内面的思考を生成する。100の支援的対話シナリオでの実験により、最終的なSentient感情スコアがBarrett-Lennard Relationship Inventory(BLRI)評価や発話レベルの共感指標と強く相関することが示され、心理学的忠実性が検証された。また、18の商用およびオープンソースモデルをカバーする公開Sentient Leaderboardを構築し、最先端システム(GPT-4o-Latest、Gemini2.5-Pro)と初期のベースラインとの間に最大4倍の大きなギャップがあることを明らかにした。このギャップは、従来のリーダーボード(例:Arena)には反映されていない。したがって、SAGEは、真に共感的で社会的に適応した言語エージェントに向けた進捗を追跡するための原理的でスケーラブルかつ解釈可能なツールを提供する。
大規模推論モデル(LRM)は、長い連鎖的思考(CoT)を生成することで複雑なタスクにおいて顕著な進歩を遂げてきた。しかし、その制御されない出力長は、トークン数、レイテンシ、計算リソースが厳密に制約される現実世界の展開において重大な課題を引き起こす。本論文では、スケーラブルな連鎖的思考のための新しいフレームワークであるElastic Reasoningを提案する。このフレームワークは、推論を「思考」と「解決」の2つのフェーズに明示的に分離し、それぞれに独立した予算を割り当てる。テスト時には、Elastic Reasoningは解決セグメントの完全性を優先し、厳しいリソース制約下での信頼性を大幅に向上させる。思考が途中で打ち切られた場合に適応的に推論する能力をモデルに教えるため、GRPOに統合された軽量な予算制約付きロールアウト戦略を導入し、追加のトレーニングなしで未見の予算制約に効果的に一般化する。数学(AIME、MATH500)およびプログラミング(LiveCodeBench、Codeforces)のベンチマークにおける実験結果は、Elastic Reasoningが厳格な予算制約下でも堅牢に動作し、ベースライン手法よりも大幅に低いトレーニングコストで済むことを示している。注目すべきは、本アプローチが制約のない設定においても、より簡潔で効率的な推論を生成することである。Elastic Reasoningは、大規模な制御可能な推論という喫緊の課題に対する原理的かつ実用的な解決策を提供する。
3Dシーン生成は、没入型メディア、ロボティクス、自動運転、エンボディドAIなどのアプリケーション向けに、空間的に構造化され、意味的に有意義で、フォトリアルな環境を合成することを目指しています。初期の手法は手続き型ルールに基づいており、スケーラビリティはあるものの多様性に限界がありました。近年の深層生成モデル(GAN、拡散モデルなど)や3D表現(NeRF、3Dガウシアンなど)の進展により、現実世界のシーン分布を学習し、忠実度、多様性、視点一貫性が向上しています。拡散モデルなどの最新の進展は、生成を画像や動画合成の問題として再定義することで、3Dシーン合成とフォトリアリズムを橋渡ししています。本調査では、最先端のアプローチを体系的に概観し、それらを4つのパラダイムに分類します:手続き型生成、ニューラル3Dベース生成、画像ベース生成、動画ベース生成。各手法の技術的基盤、トレードオフ、代表的な結果を分析し、一般的に使用されるデータセット、評価プロトコル、下流アプリケーションをレビューします。最後に、生成能力、3D表現、データとアノテーション、評価における主要な課題を議論し、より高い忠実度、物理を考慮したインタラクティブ生成、統一された知覚生成モデルなどの有望な方向性を概説します。本レビューは、3Dシーン生成の最近の進展を整理し、生成AI、3Dビジョン、エンボディドインテリジェンスの交差点における有望な方向性を強調します。進行中の開発を追跡するため、最新のプロジェクトページを維持しています: https://github.com/hzxie/Awesome-3D-Scene-Generation。
Contrastive Language-Image Pre-training (CLIP)は、画像-テキスト検索やゼロショット分類などのマルチモーダルタスクにおいて優れた性能を発揮しますが、粗粒度の短いキャプションに焦点を当てているため、細粒度の理解には課題があります。この問題に対処するため、我々はFine-Grained CLIP (FG-CLIP)を提案します。FG-CLIPは、3つの主要な革新を通じて細粒度の理解を強化します。まず、大規模マルチモーダルモデルを活用して、グローバルレベルの意味的詳細を捉えるために16億の長いキャプション-画像ペアを生成します。次に、1200万の画像と4000万の領域固有のバウンディングボックスを詳細なキャプションと整合させた高品質なデータセットを構築し、正確で文脈豊かな表現を確保します。さらに、1000万の難しい細粒度のネガティブサンプルを組み込み、モデルが微妙な意味的差異を区別する能力を向上させます。これらのデータに対応するためのトレーニング方法も綿密に設計されています。大規模な実験により、FG-CLIPが元のCLIPや他の最先端の手法を、細粒度理解、オープン語彙物体検出、画像-テキスト検索、一般的なマルチモーダルベンチマークなど、さまざまな下流タスクにおいて凌駕することが示されています。これらの結果は、FG-CLIPが細粒度の画像詳細を捉え、全体的なモデル性能を向上させる効果を強調しています。関連するデータ、コード、モデルはhttps://github.com/360CVGroup/FG-CLIPで公開されています。
最近のプロプライエタリモデル(例:o3)は、強力なマルチモーダル推論能力を示し始めています。しかし、既存のオープンソース研究のほとんどは、テキストのみの推論モデルの訓練に集中しており、評価も主に数学的および一般領域のタスクに限定されています。そのため、テキスト入力や一般領域を超えて推論能力を効果的に拡張する方法はまだ不明確です。本論文では、基本的な研究課題を探求します:推論はモダリティや領域を超えて一般化可能か?我々の研究結果は、肯定的な答えを支持します:一般領域のテキストベースのポストトレーニングが、そのような強力な一般化可能な推論を可能にします。この発見を活用して、我々はX-Reasonerを紹介します。これは、一般領域のテキストのみでポストトレーニングされた視覚言語モデルで、一般化可能な推論を実現するために、2段階のアプローチを採用しています:最初に蒸留された長い連鎖思考(chain-of-thoughts)を用いた教師ありファインチューニングフェーズを行い、その後検証可能な報酬を用いた強化学習を行います。実験結果は、X-Reasonerがマルチモーダルおよび領域外の設定に推論能力を成功裏に転移させ、様々な一般および医療ベンチマークにおいて、領域内およびマルチモーダルデータで訓練された既存の最先端モデルを凌駕することを示しています(図1)。さらに、X-Reasonerの専門領域での性能は、領域固有のテキストのみのデータを用いた継続的な訓練によってさらに向上させることができることがわかりました。これを基に、我々はX-Reasoner-Medを紹介します。これは医療専門のバリアントで、多数のテキストのみおよびマルチモーダルの医療ベンチマークにおいて新たな最先端を達成します。
本論文では、StreamBridgeを紹介します。これは、オフラインのVideo-LLMをストリーミング対応モデルにシームレスに変換する、シンプルでありながら効果的なフレームワークです。StreamBridgeは、既存モデルをオンラインシナリオに適応させる際の2つの根本的な課題に対処します。(1) マルチターンでのリアルタイム理解能力の限界、(2) 能動的な応答メカニズムの欠如。具体的には、StreamBridgeは、(1) ラウンド減衰圧縮戦略と組み合わせたメモリバッファを導入し、長文脈でのマルチターンインタラクションをサポートし、(2) 既存のVideo-LLMに容易に統合可能な分離型の軽量アクティベーションモデルを採用し、継続的な能動的応答を可能にします。さらに、StreamBridgeをサポートするため、ストリーミングビデオ理解に特化した大規模データセットであるStream-ITを構築しました。これは、インタリーブされたビデオ-テキストシーケンスと多様な指示形式を特徴としています。大規模な実験により、StreamBridgeが、さまざまなタスクにおいてオフラインVideo-LLMのストリーミング理解能力を大幅に向上させ、GPT-4oやGemini 1.5 Proなどのプロプライエタリモデルをも凌駕することが示されました。同時に、標準的なビデオ理解ベンチマークにおいても競争力のある、またはそれ以上の性能を達成しています。
我々は、実3Dシーンにおける言語誘導型オブジェクト配置という新たなタスクを提案する。本モデルには、3Dシーンの点群データ、3Dアセット、および3Dアセットの配置場所を大まかに記述したテキストプロンプトが与えられる。ここでのタスクは、プロンプトに従った有効な3Dアセットの配置位置を見つけることである。3Dシーンにおける言語誘導型ローカライゼーションタスク(例えばグラウンディング)と比較して、このタスクには特有の課題がある。それは、複数の有効な解が存在するため曖昧性が高く、3D幾何学的関係と自由空間についての推論を必要とする点である。我々は、このタスクを開始するために、新しいベンチマークと評価プロトコルを提案する。また、このタスクにおける3D LLMのトレーニング用の新しいデータセットと、非自明なベースラインとして最初の手法を導入する。我々は、この挑戦的なタスクと新たなベンチマークが、汎用3D LLMモデルの評価と比較に使用されるベンチマーク群の一部となる可能性があると考えている。
大規模言語モデル(LLM)の推論を微調整するための一般的な強化学習(RL)手法、例えばGRPOやLeave-one-out PPOなどは、学習された価値関数を放棄し、経験的に推定されたリターンを採用しています。これにより、検証のために価値関数を使用するテスト時の計算スケーリングが妨げられています。本研究では、任意の「価値関数なし」RL手法を拡張するRL^Vを提案します。RL^Vは、RL生成データを使用してLLMを推論器と生成検証器の両方として共同で訓練し、大きなオーバーヘッドなしに検証機能を追加します。実験的に、RL^Vは並列サンプリングによりMATHの精度を20%以上向上させ、ベースのRL手法と比較して8~32倍の効率的なテスト時の計算スケーリングを実現します。また、RL^Vは、容易なタスクから困難なタスク、さらにはドメイン外のタスクに対して強い汎化能力を示します。さらに、RL^Vは、長い推論を行うR1モデルにおいて、並列および逐次のテスト時の計算を共同でスケーリングする場合に1.2~1.6倍の高い性能を達成します。
命令チューニングのためのデータ選択は、大規模言語モデル(LLM)の性能向上とトレーニングコストの削減に不可欠です。しかし、既存の自動選択手法は、計算コストの高い勾配ベースの指標に依存するか、手動で設計されたヒューリスティックに頼っており、データの内在的な特性を十分に活用できない可能性があります。本論文では、In-context Learning for Contribution Measurement(ICon)を提案します。これは、勾配計算や手動の指標設計を必要とせず、in-context learning(ICL)の暗黙的なファインチューニング特性を活用してサンプルの貢献度を測定する新しい勾配不要の手法です。IConは、勾配ベースの手法に比べて計算効率が高く、ヒューリスティックベースのアプローチに内在する人間の帰納的バイアスを軽減します。IConは3つのコンポーネントで構成され、ICLを通じた暗黙的な学習下での性能変化を評価することで、高貢献度データを特定します。3つのLLM、12のベンチマーク、および5つのペアワイズ評価セットを用いた広範な実験により、IConの有効性が実証されました。特に、LLaMA3.1-8Bでは、IConで選択されたデータの15%でトレーニングされたモデルが、フルデータセットを5.42%ポイント上回り、広く使用されている選択手法の最高性能を2.06%ポイント上回りました。さらに、IConによって選択された高貢献度サンプルを分析した結果、最も難しいサンプルだけでなく、多様なタスクと適切な難易度レベルが含まれていることが明らかになりました。
大規模言語モデルの推論能力は、主に英語を対象として研究されており、多言語対応の事前学習モデルであっても同様です。本研究では、英語における長い連鎖的思考(CoT)を用いた推論のファインチューニングが、どの程度まで他言語に汎化するかを調査します。まず、英語中心の推論言語モデル(RLM)における推論計算のスケールアップが、低リソース言語を含む多くの言語での数学的推論を向上させ、モデルサイズが2倍のモデルを凌駕することを発見しました。次に、英語中心のRLMのCoTは自然と英語が主流であるものの、引用された非英語の入力について推論する際に「引用して考える」パターンを一貫して採用していることを明らかにしました。第三に、長いCoT推論の言語を制御する効果的な戦略を発見し、モデルが高リソース言語ではより良く、効率的に推論することを観察しました。最後に、特にSTEMから文化的常識知識へのドメイン外推論の汎化が不十分であることを観察しました。全体として、英語推論のテストタイムスケーリングの多言語汎化の可能性を実証し、そのメカニズムを研究し、限界を明らかにしました。結論として、実務家は英語中心のRLMに高リソース言語で推論させるべきであり、低リソース言語やドメイン外の文脈での推論を改善するためのさらなる研究が必要であると述べています。
大規模言語モデル(LLM)のアンラーニングは、現実世界のアプリケーションにおいて、特定のユーザーからのプライベートデータ、著作権保護データ、または有害なデータの影響を効率的に除去する必要がある場面で極めて重要です。しかし、既存のユーティリティ中心のアンラーニング指標(モデルの有用性に基づく)は、以下のような現実的な設定において、アンラーニングの程度を正確に評価できない場合があります:(a) 忘却対象データと保持対象データが意味的に類似した内容を含む場合、(b) 保持対象データを用いてモデルをゼロから再訓練することが現実的でない場合、および/または (c) モデル所有者がLLMに対して直接アンラーニングを行わずにアンラーニング指標を改善できる場合です。本論文では、これらの制限を克服するために、堅牢なテキスト透かし技術を活用した初のデータ中心のアンラーニング指標「WaterDrum」を提案します。また、類似データポイントのレベルが異なる新しいベンチマークデータセットを導入し、WaterDrumを使用してアンラーニングアルゴリズムを厳密に評価できるようにしました。私たちのコードはhttps://github.com/lululu008/WaterDrumで公開されており、新しいベンチマークデータセットはhttps://huggingface.co/datasets/Glow-AI/WaterDrum-Axでリリースされています。
Chain-of-Thoughts(CoT)は、大規模言語モデル(LLM)が最終的な答えに到達する前に中間ステップを生成することを要求し、LLMが複雑な推論タスクを解決するのに効果的であることが証明されています。しかし、CoTの内部メカニズムは依然としてほとんど解明されていません。本論文では、2つの合成的タスク(多桁乗算と動的計画法)において、LLMにおけるCoTトークンの役割を実証的に研究します。CoTはこれらの問題を解決するために不可欠ですが、中間結果を保存するトークンのみを保持しても同等の性能が得られることがわかりました。さらに、中間結果を代替的な潜在形式で保存してもモデルの性能に影響がないことも観察しました。また、CoTの一部の値をランダムに介入すると、それに応じて後続のCoTトークンと最終的な答えが変化することに気づきました。これらの発見は、CoTトークンがコンピュータプログラムの変数のように機能する可能性があるが、意図しないショートカットやトークン間の計算複雑性の制限といった潜在的な欠点があることを示唆しています。コードとデータはhttps://github.com/solitaryzero/CoTs_are_Variablesで公開されています。
Vision-Language-Action(VLA)モデルは、人工知能における画期的な進歩を象徴し、知覚、自然言語理解、および身体的行動を単一の計算フレームワークに統合することを目指しています。この基礎的なレビューでは、急速に進化するこの分野の全体像を構造化する5つのテーマ別の柱に沿って、最近のVision-Language-Actionモデルの進展を包括的にまとめています。まず、VLAシステムの概念的基盤を確立し、クロスモーダル学習アーキテクチャから、視覚言語モデル(VLM)、行動プランナー、階層的コントローラーを緊密に統合した汎用エージェントへの進化を追います。本レビューでは、過去3年間に発表された80以上のVLAモデルを網羅する厳密な文献レビューフレームワークを採用しています。主要な進展領域には、アーキテクチャの革新、パラメータ効率の高い学習戦略、リアルタイム推論の高速化が含まれます。ヒューマノイドロボティクス、自動運転車、医療および産業用ロボティクス、精密農業、拡張現実ナビゲーションなど、多様な応用領域を探求します。さらに、リアルタイム制御、マルチモーダル行動表現、システムのスケーラビリティ、未見のタスクへの一般化、倫理的展開リスクといった主要な課題にも取り組みます。最新の技術を踏まえ、エージェント型AIの適応、クロスエンボディメント一般化、統合されたニューロシンボリックプランニングといった具体的な解決策を提案します。将来を見据えた議論では、VLAモデル、VLM、エージェント型AIが融合し、社会的に調和した適応的で汎用性のある身体化エージェントを実現するためのロードマップを提示します。本論文は、現実世界のロボティクスや人工汎用知能の進展に向けた基礎的な参照資料としての役割を果たします。>Vision-language-action、エージェント型AI、AIエージェント、視覚言語モデル
ロバストで効率的な局所特徴マッチングは、ロボティクスにおけるSLAMや視覚的位置推定などのアプリケーションにおいて重要な役割を果たします。大きな進展があったにもかかわらず、急激な照明変化、低テクスチャ領域、または反復パターンが存在するシナリオにおいて、ロバストで識別力のある視覚的特徴を抽出することは依然として非常に困難です。本論文では、3D幾何学的特徴を集約することで生の記述子のロバスト性を向上させる新しい軽量ネットワークであるLiftFeatを提案します。具体的には、まず事前学習された単眼深度推定モデルを採用して疑似表面法線ラベルを生成し、予測された表面法線に基づいて3D幾何学的特徴の抽出を監督します。次に、3D幾何学的特徴を意識した特徴リフティングモジュールを設計し、表面法線特徴と生の2D記述子特徴を融合します。このような3D幾何学的特徴を統合することで、極端な条件下での2D特徴記述の識別能力が向上します。相対姿勢推定、ホモグラフィ推定、および視覚的位置推定タスクにおける広範な実験結果は、我々のLiftFeatがいくつかの軽量な最先端手法を凌駕することを示しています。コードはhttps://github.com/lyp-deeplearning/LiftFeatで公開されます。
言語モデルを人間の好みに合わせるためには、ペアワイズ選好データセットが重要です。一部の研究では、選好学習においてオンポリシーデータがオフポリシーデータを一貫して上回るとされていますが、他の研究では、オンポリシーデータの利点がタスク依存である可能性を示しており、これらの相互作用を体系的に探る必要性が強調されています。 本研究では、選好最適化においてオンポリシーデータとオフポリシーデータが補完的な強みを提供することを示します。具体的には、オンポリシーデータは数学やコーディングなどの推論タスクに特に有効であり、オフポリシーデータは創造的な文章作成や個人的な推薦などのオープンエンドタスクで優れた性能を発揮します。これらの知見に基づき、我々はSIMPLEMIXを提案します。これは、オンポリシーとオフポリシーの選好学習の補完的な強みを、単にこれら2つのデータソースを混合することで組み合わせるアプローチです。多様なタスクとベンチマークにおける実証結果は、SIMPLEMIXが言語モデルのアラインメントを大幅に改善することを示しています。具体的には、SIMPLEMIXはAlpaca Eval 2.0において、オンポリシーDPOとオフポリシーDPOを平均6.03%上回りました。さらに、HyPOやDPO-Mix-Pなど、オンポリシーとオフポリシーデータを組み合わせるためのより複雑な先行手法を平均3.05%上回りました。
大規模言語モデル(LLM)がツール利用エージェントへと進化するにつれ、リアルタイムでのウェブ閲覧能力は、それらの推論および検索能力を測る重要な指標となっています。既存のベンチマークであるBrowseCompは英語に焦点を当てており、他の主要な情報エコシステム、特に中国語圏における言語的、インフラ的、検閲関連の複雑さを見落としています。このギャップを埋めるため、我々は中国語ウェブを包括的に評価するために設計された高難易度のベンチマーク、BrowseComp-ZHを導入します。BrowseComp-ZHは11の多様なドメインにわたる289のマルチホップ質問で構成されています。各質問は、短く、客観的で、容易に検証可能な回答(例:日付、数値、固有名詞)から逆算して作成されています。高難易度と回答の一意性を追求するため、2段階の品質管理プロトコルが適用されています。我々は、提案したBrowseComp-ZHにおいて、20以上の最先端言語モデルおよび検索システムをベンチマークしました。強力な会話および検索能力を持つにもかかわらず、ほとんどのモデルは深刻な苦戦を強いられました:多くのモデルが10%未満の正答率であり、20%を超えるモデルはごく少数でした。最高性能のシステムであるOpenAIのDeepResearchでさえ、42.9%に留まりました。これらの結果は、BrowseComp-ZHの相当な難易度を示しており、成功には効果的な検索戦略だけでなく、洗練された推論と情報の統合能力が必要であり、現在のモデルはこれらの能力をまだ十分に習得できていないことを示しています。我々のデータセット、構築ガイドライン、およびベンチマーク結果は、https://github.com/PALIN2018/BrowseComp-ZH で公開されています。