翻訳付きの日次キュレーションされたAI研究論文
rStar-Mathを提示し、優れたモデルからの蒸留なしに、小規模言語モデル(SLM)がOpenAIのo1の数学推論能力に匹敵し、あるいはそれを上回ることを示します。rStar-Mathは、Monte Carlo Tree Search(MCTS)を通じて「深い思考」を実践し、数学ポリシーSLMがSLMベースのプロセス報酬モデルによって誘導されたテスト時探索を行うことでこれを達成します。rStar-Mathは、2つのSLMのトレーニングにおける課題に取り組むために3つの革新を導入します:(1)革新的なコード拡張されたCoTデータ合成手法である、この手法は、方針SLMをトレーニングするために使用されるステップバイステップの検証済み推論軌跡を生成するために広範なMCTSロールアウトを実行します;(2)単純なステップレベルのスコア注釈を回避し、より効果的なプロセス優先モデル(PPM)を生み出す革新的なプロセス報酬モデルトレーニング手法;(3)ポリシーSLMとPPMをゼロから構築し、推論能力を向上させるために反復的に進化させる自己進化レシピ。747kの数学問題に対する数百万の合成解決策を用いた4回の自己進化を通じて、rStar-MathはSLMの数学推論を最先端のレベルに引き上げます。MATHベンチマークでは、Qwen2.5-Math-7Bを58.8%から90.0%、Phi3-mini-3.8Bを41.4%から86.4%に向上させ、o1-previewを+4.5%、+0.9%上回ります。USA数学オリンピアード(AIME)では、rStar-Mathは問題の平均53.3%(8/15)を解決し、最も優れた高校生数学生徒の20%にランクインします。コードとデータはhttps://github.com/microsoft/rStar で入手可能です。
私たちは、Meta Chain-of-Thought(Meta-CoT)という新しいフレームワークを提案します。このフレームワークは、特定のChain-of-Thought(CoT)に到達するために必要な根底の推論を明示的にモデル化することで、従来のChain-of-Thoughtを拡張します。最先端のモデルからの実証的証拠を提示し、コンテキスト内検索と一致する振る舞いを示す方法を探求し、プロセス監督、合成データ生成、および検索アルゴリズムを用いてMeta-CoTを生成する方法を検討します。最後に、モデルを訓練してMeta-CoTを生成する具体的なパイプラインを概説し、線形化された検索トレースと訓練後の強化学習を組み込んだ指示チューニングを取り入れます。最後に、スケーリング則、検証者の役割、および新しい推論アルゴリズムの発見の可能性を含む未解決の研究課題について議論します。この研究は、LLMsにMeta-CoTを可能にするための理論的かつ実践的なロードマップを提供し、人間らしい推論をより強力に実現する人工知能の道筋を示しています。
科学的な発見は歴史的には長くて費用のかかるプロセスであり、最初の構想から最終結果まで多大な時間とリソースを要求してきました。科学的な発見を加速し、研究コストを削減し、研究の品質を向上させるために、私たちはエージェントラボラトリーを導入します。これは、完全な研究プロセスを完了できる自律型LLMベースのフレームワークです。このフレームワークは、人間が提供した研究アイデアを受け入れ、文献レビュー、実験、報告書作成の3つの段階を進行し、コードリポジトリと研究報告書を含む包括的な研究成果を生み出します。また、ユーザーが各段階でフィードバックとガイダンスを提供できるようにします。私たちはAgent Laboratoryをさまざまな最先端のLLMと展開し、複数の研究者に参加してもらい、調査によってその品質を評価してもらいます。そして、ヒューマンフィードバックを提供して研究プロセスを導き、最終的な論文を評価します。以下の結果が得られました:(1) o1-previewによって駆動されるAgent Laboratoryが最良の研究成果を生み出すこと、(2) 生成された機械学習コードが既存の方法と比較して最先端の性能を達成できること、(3) 各段階でフィードバックを提供するヒューマンの関与が研究全体の品質を大幅に向上させること、(4) Agent Laboratoryが従来の自律型研究方法と比較して研究費用を84%削減することができること。私たちは、Agent Laboratoryが研究者が低レベルのコーディングや執筆よりも創造的な構想により多くの労力を割り当てることを可能にし、最終的に科学的な発見を加速させることを期待しています。
Chain-of-thought (CoT) 推論は、大規模言語モデル(LLMs)の数学的推論に広く適用されています。最近、CoT 軌跡に対する導関数プロセス監視の導入により、テスト時のスケーリング能力の向上に関する議論が活発化し、これらのモデルの潜在能力を高める可能性が生まれました。しかし、多様なモードの数学的推論において、高品質な CoT トレーニングデータの不足が既存のモデルが高精度な CoT 推論を達成するのを妨げ、テスト時の推論潜在能力の実現を制限しています。本研究では、CoT 蒸留、軌跡形式の書き直し、および形式の統一を統合した三つのモジュール合成戦略を提案します。これにより、多様なモードの数学における高品質な CoT 推論指示の微調整データセットである MMathCoT-1M が生成されます。我々は、訓練された URSA-7B モデルの最先端のパフォーマンスを、複数の多様なモードの数学ベンチマークで包括的に検証します。テスト時のスケーリングにおいては、解釈と論理の両方に焦点を当てたプロセス注釈データセットである DualMath-1.1M を自動生成するデータ合成戦略を導入します。DualMath-1.1M 上で URSA-7B をさらにトレーニングすることで、CoT 推論能力から堅牢な監督能力への移行を実現します。訓練された URSA-RM-7B は検証者として機能し、テスト時の URSA-7B のパフォーマンスを効果的に向上させます。URSA-RM-7B はまた、優れた OOD 検証能力を示し、その汎化能力を示しています。モデルの重み、トレーニングデータ、コードはオープンソース化されます。
近年、大規模言語モデル(LLM)の急速な進歩は、科学研究の領域を変革し、研究サイクルのさまざまな段階で前例のないサポートを提供しています。本論文は、LLMが科学研究プロセスを革新している方法を探求する初の体系的調査を紹介します。私たちは、研究の重要な段階である仮説の発見、実験の計画と実施、科学的執筆、および査読という4つの重要な段階でLLMが果たす独自の役割を分析します。私たちのレビューは、タスク固有の方法論と評価基準を包括的に紹介しています。現在の課題を特定し、将来の研究方向を提案することで、この調査はLLMの変革的な可能性を強調するだけでなく、研究者や実務家が科学的探求を推進するためにLLMを活用する際のインスピレーションとガイドとなることを目指しています。リソースは以下のリポジトリで入手可能です:https://github.com/du-nlp-lab/LLM4SR
グラフィカルユーザーインターフェース(GUI)エージェントは、マルチモーダルな大規模言語モデル(MLLMs)によって強化され、コンピュータやモバイル電話などのコンピューティングデバイスにおけるタスクの自動化に大きな潜在能力を示しています。ただし、既存のエージェントは、複数段階の推論やテキスト注釈への依存といった課題に直面し、その効果が制限されています。本研究では、InfiGUIAgentを導入しました。これは、2段階の教師ありファインチューニングパイプラインで訓練されたMLLMベースのGUIエージェントです。第1段階では、GUI理解や基盤形成などの基本的なスキルを向上させ、第2段階では、階層的推論や期待反映推論スキルを統合し、エージェントのネイティブな推論能力を可能にするために合成データを使用しています。InfiGUIAgentは、複数のGUIベンチマークで競争力のある性能を達成し、自然な推論能力がGUIインタラクションの自動化タスクの向上に与える影響を示しています。リソースはhttps://github.com/Reallm-Labs/InfiGUIAgent で入手可能です。
文書検索技術は大規模情報システムの開発の基盤を形成しています。主流の方法論は、バイエンコーダを構築し、意味の類似性を計算することです。しかし、このスカラー類似性は十分な情報を反映するのが難しく、検索結果の理解を妨げます。さらに、この計算プロセスは主にグローバルな意味を強調し、クエリと文書内の複雑なテキストとの微細な意味関係を無視します。本論文では、設計された融合およびデコーディングモジュールを組み込んだ新しい手法である「Generation Augmented Retrieval(GeAR)」を提案します。これにより、GeARはクエリと文書の融合表現に基づいて文書から関連テキストを生成できるため、「微細な情報に焦点を当てる」ことを学習します。また、リトリーバーとして使用される場合、GeARはバイエンコーダに比べて計算負荷を増やしません。新しいフレームワークのトレーニングをサポートするために、大規模言語モデルを利用して高品質なデータを効率的に合成するためのパイプラインを導入しました。GeARはさまざまなシナリオとデータセットで競争力のある検索および位置特定のパフォーマンスを示します。さらに、GeARによって生成された結果と定性的分析は、検索結果の解釈に新しい洞察を提供します。コード、データ、およびモデルは、技術的レビューが完了した後に公開され、将来の研究を支援します。
本論文では、微細な3D生成の領域を本当に創造的な領域にまで押し広げます。現在の方法は、緻密な詳細を欠いているか、単に既存のオブジェクトを模倣しているだけですが、私たちはその両方を可能にします。2Dの微細な理解を3Dに昇華させることで、マルチビューの拡散と部分的な潜在変数を連続分布としてモデリングすることにより、新しいがありうる部分を補間やサンプリングを通じて生成する能力を解き放ちます。自己監督学習の特徴一貫性損失により、これらの未知の部分の安定した生成が保証されます。その結果、既存の例を超越する種固有の詳細を持つ新しい3Dオブジェクトを作成できる最初のシステムが実現されます。私たちは鳥を対象にアプローチを実証していますが、基盤となるフレームワークはさえずるものを超えて拡張されます!コードはhttps://github.com/kamwoh/chirpy3dで公開されます。
単一画像の3Dオブジェクト再構築の問題を研究しています。最近の研究は、回帰ベースのモデリングと生成モデリングの2つの方向に分かれています。回帰法は効率的に見える表面を推論しますが、遮蔽された領域に苦労します。生成法は分布をモデリングすることで不確実な領域をうまく処理しますが、計算コストが高く、生成物がしばしば見える表面と整合しないことがあります。本論文では、両方向の利点を活かすことを目指した新しい2段階アプローチであるSPAR3Dを提案します。SPAR3Dの第1段階は、軽量なポイント拡散モデルを使用して疎な3Dポイントクラウドを生成し、高速なサンプリング速度を持ちます。第2段階では、サンプリングされたポイントクラウドと入力画像の両方を使用して、非常に詳細なメッシュを作成します。2段階設計により、単一画像の3Dタスクの不適切な確率モデリングを可能にし、高い計算効率と優れた出力忠実度を維持します。中間表現としてポイントクラウドを使用することで、インタラクティブなユーザー編集も可能になります。さまざまなデータセットで評価した結果、SPAR3Dは従来の最先端手法よりも優れた性能を示し、推論速度は0.7秒です。プロジェクトページ(コードとモデル):https://spar3d.github.io
効果的な指示調整は、コードLLMの最適化に不可欠であり、モデルの振る舞いをユーザーの期待に合わせ、実世界のアプリケーションにおけるモデルのパフォーマンスを向上させるために重要です。ただし、ほとんどの既存の手法はコードスニペットに焦点を当てており、特定の機能や堅牢な構造に限定されているため、合成データの複雑さと多様性が制限されています。これらの制限に対処するために、私たちは、抽象構文木(AST)に着想を得た新しい特徴ツリーベースの合成フレームワークを導入しています。ASTがコードの構文構造を捉えるのに対し、当社のフレームワークはコード要素間の意味関係をモデル化し、より微妙で多様なデータの生成を可能にします。特徴ツリーは生データから構築され、抽出された特徴の量と多様性を増やすために反復的に洗練されます。このプロセスにより、コード内のより複雑なパターンや関係性を特定することが可能となります。制御された深さと幅でサブツリーをサンプリングすることにより、当社のフレームワークは生成されるコードの複雑さを正確に調整し、単純な関数レベルの操作から複雑な複数ファイルシナリオまで幅広いタスクをサポートします。広く使用されているベースモデルを微調整してEpiCoderシリーズを作成し、複数のベンチマークで機能レベルとファイルレベルの両方で最先端のパフォーマンスを達成しました。特筆すべきは、経験的証拠が、当社の手法が高度に複雑なリポジトリレベルのコードデータを合成する上で重要な潜在能力を示していることを示しています。さらなる分析により、ソフトウェアエンジニアリングの原則とLLMを判断基準とする方法を通じて、この手法のデータの複雑さと多様性を厳密に評価することで、この手法の利点が明らかになります。
大規模言語モデル(LLMs)の急速な台頭は多くのアプリケーションを可能にしましたが、さまざまな価値観や選好との調整の難しさを浮き彫りにしています。直接的な選好最適化(DPO)は調整に中心的ですが、固定された発散と限られた特徴変換によって制約されています。私たちは、これらの問題に取り組むためにカーネル法を統合したDPO-Kernelsを提案します。これには、次の4つの主要な貢献があります:(i)多項式、RBF、マハラノビス、スペクトルカーネルを使用したカーネル化表現、埋め込みベースと確率ベースの目的を組み合わせたハイブリッド損失を含むより豊かな変換;(ii)Jensen-Shannon、Hellinger、Renyi、Bhattacharyya、Wasserstein、f-発散などの発散の代替手段による安定性向上;(iii)最適なカーネル-発散ペアを自動的に選択するデータ駆動型選択メトリクス;および(iv)ローカル精度とグローバルモデリングの両方のための階層的カーネル混合。12のデータセットでの評価は、事実性、安全性、推論、指示に従う能力において最先端の性能を示しました。重尾自己正則化に基づくDPO-Kernelsは、LLMsに対する堅牢な汎化を維持し、さらなる調整研究の包括的なリソースを提供しています。
Retrieval-Augmented Generation(RAG)は、大規模言語モデル(LLM)を展開する際に普及しており、幻覚を生じたり古くなった情報を生成するなどの典型的な制限に対処できます。ただし、実世界のRAGアプリケーションを構築する際には実用上の問題が発生します。まず、取得される情報は一般に特定のドメインに特化しています。LLMを微調整するのは計算コストがかかるため、取得器を微調整してLLM入力に含まれるデータの品質を向上させる方が実現可能です。第二に、同じ実世界システムに複数のアプリケーションを展開する場合、別々の取得器を展開する余裕はありません。さらに、これらのRAGアプリケーションは通常、異なる種類のデータを取得します。私たちの解決策は、さまざまなドメイン固有のタスクで取得器エンコーダを指示微調整し、多くのユースケースに対応できるエンコーダを展開することで、低コスト、スケーラビリティ、および高速化を実現することです。このエンコーダがどのようにして異なるドメイン設定や実世界の企業ユースケースでの未知の取得タスクにも汎用化されるかを示します。