翻訳付きの日次キュレーションされたAI研究論文
大規模な検証可能な報酬を用いた強化学習(RLVR)は、単一ターンの推論タスクにおいて大規模言語モデル(LLMs)の潜在能力を活用する効果を実証してきました。現実的な推論シナリオでは、LLMsはしばしば外部ツールを利用してタスク解決プロセスを支援することができます。しかし、現在のRLアルゴリズムは、モデルの内在的な長期的推論能力と、複数ターンにわたるツール相互作用の熟練度を適切にバランスさせることができていません。このギャップを埋めるため、我々は複数ターンのLLMベースエージェントの訓練に特化した新しいエージェント型RLアルゴリズムであるAgentic Reinforced Policy Optimization(ARPO)を提案します。予備実験を通じて、LLMsが外部ツールとの相互作用直後に生成されるトークンのエントロピー分布の増加という特徴を持つ高度に不確実な行動を示す傾向があることを観察しました。この観察に基づき、ARPOはエントロピーベースの適応的ロールアウトメカニズムを組み込み、グローバルな軌道サンプリングとステップレベルのサンプリングを動的にバランスさせ、ツール使用後の不確実性が高いステップでの探索を促進します。さらに、利点帰属推定を統合することで、ARPOはLLMsが段階的なツール使用相互作用における利点の差を内在化することを可能にします。計算推論、知識推論、深層探索の領域における13の挑戦的なベンチマークでの実験を通じて、ARPOが軌道レベルのRLアルゴリズムを凌駕する優位性を実証しました。特に、ARPOは既存の手法に必要なツール使用予算の半分のみを使用して性能を向上させ、LLMベースエージェントをリアルタイムの動的環境に適合させるためのスケーラブルなソリューションを提供します。我々のコードとデータセットはhttps://github.com/dongguanting/ARPOで公開されています。
大規模言語モデル(LLMs)は強力な能力を発揮しているものの、本質的には静的であり、新しいタスク、進化する知識領域、または動的なインタラクションコンテキストに内部パラメータを適応させることはできません。LLMsがオープンエンドでインタラクティブな環境に展開されるにつれ、この静的な性質は重大なボトルネックとなっており、リアルタイムで適応的に推論、行動、進化できるエージェントの必要性が高まっています。このパラダイムシフト――静的モデルのスケーリングから自己進化型エージェントの開発へ――は、データ、インタラクション、経験から継続的に学習し適応するためのアーキテクチャと手法に対する関心を高めています。本調査は、自己進化型エージェントに関する初の体系的かつ包括的なレビューを提供し、進化の対象(何を進化させるか)、進化のタイミング(いつ進化させるか)、進化の方法(どのように進化させるか)という3つの基本的な次元に基づいて整理しています。エージェントの構成要素(モデル、メモリ、ツール、アーキテクチャなど)における進化メカニズムを検証し、適応手法を段階(テスト時間内、テスト時間間など)ごとに分類し、進化的適応を導くアルゴリズムとアーキテクチャ設計(スカラー報酬、テキストフィードバック、単一エージェントおよびマルチエージェントシステムなど)を分析します。さらに、自己進化型エージェントに特化した評価指標とベンチマークを分析し、コーディング、教育、医療などの分野での応用例を強調し、安全性、スケーラビリティ、共進化ダイナミクスにおける重要な課題と研究の方向性を特定します。自己進化型エージェントを理解し設計するための構造化されたフレームワークを提供することで、本調査は研究と実世界の展開における適応型エージェントシステムの進展に向けたロードマップを確立し、最終的には人工超知能(ASI)の実現への道を照らします。ASIでは、エージェントが自律的に進化し、幅広いタスクにおいて人間レベルの知能を超える性能を発揮します。
現実世界のユーザー生成ショートビデオ、特にWeChat ChannelやTikTokなどのプラットフォームで配信されるものは、モバイルインターネットを支配しています。しかし、現在の大規模マルチモーダルモデルには、効果的なビデオ検索や推薦、そして新興のビデオアプリケーションの基盤となる、時間構造化された詳細で深いビデオ理解能力が欠けています。現実世界のショートビデオを理解することは、複雑な視覚要素、視覚と音声の両方における高い情報密度、感情表現や視点の伝達に焦点を当てた速いペースのため、実際には困難です。これには、視覚、音声、テキストを含むマルチモーダル情報を効果的に統合する高度な推論が必要です。本研究では、生のビデオ入力から視覚、音声、テキスト信号をエンドツーエンドで処理し、構造化された理解を実現するマルチモーダルモデルARC-Hunyuan-Videoを紹介します。このモデルは、多粒度のタイムスタンプ付きビデオキャプションと要約、オープンエンドのビデオ質問応答、時間的ビデオグラウンディング、ビデオ推論が可能です。自動アノテーションパイプラインからの高品質なデータを活用し、我々のコンパクトな7Bパラメータモデルは、事前学習、指示微調整、コールドスタート、強化学習(RL)事後学習、そして最終的な指示微調整を通じて包括的に訓練されます。我々が導入したベンチマークShortVid-Benchでの定量的評価と定性的比較は、現実世界のビデオ理解におけるその強力な性能を示しており、多様な下流アプリケーションに対してゼロショットまたは少数サンプルでの微調整をサポートします。我々のモデルの現実世界での生産環境への展開は、ユーザーエンゲージメントと満足度の具体的で測定可能な改善をもたらし、その顕著な効率性によって支えられています。ストレステストでは、H20 GPU上で1分間のビデオに対する推論時間がわずか10秒であることが示されています。
最先端の大規模言語モデル(LLM)が能力の限界を押し広げ続ける一方で、その展開はGPUを搭載したクラウドインフラに限定されています。私たちはこのパラダイムに挑戦し、ローカルデバイスの固有の制約——弱い計算能力、限られたメモリ、低速なストレージ——に合わせてネイティブに設計された(適応されたのではない)LLMファミリーであるSmallThinkerを提案します。クラウド向けに構築された既存のモデルを主に圧縮する従来のアプローチとは異なり、私たちはSmallThinkerをこれらの制約内で最大限に機能するようゼロから設計しました。私たちの革新は、制約を設計原則に変換する展開を意識したアーキテクチャにあります。まず、細粒度のMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2段階のスパース構造を導入し、モデルの能力を損なうことなく計算需要を大幅に削減します。次に、低速なストレージのI/Oボトルネックを克服するため、事前注意ルーターを設計し、注意を計算しながらストレージからエキスパートパラメータをプリフェッチする共設計された推論エンジンを可能にし、オンデバイス推論を妨げるストレージレイテンシを効果的に隠蔽します。第三に、メモリ効率のために、NoPE-RoPEハイブリッドスパース注意メカニズムを活用してKVキャッシュの要件を大幅に削減します。私たちはSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースし、これらは最先端のパフォーマンススコアを達成し、より大きなLLMを凌駕することさえあります。驚くべきことに、私たちの共設計されたシステムは高価なGPUハードウェアの必要性をほとんど排除しています:Q4_0量子化により、両モデルは一般的な消費者向けCPUで20トークン/秒を超え、それぞれ1GBと8GBのメモリしか消費しません。SmallThinkerはhf.co/PowerInfer/SmallThinker-4BA0.6B-Instructとhf.co/PowerInfer/SmallThinker-21BA3B-Instructで公開されています。
マルチタスク学習がタスク間の補完的な知識を活用する可能性にもかかわらず、既存のマルチタスク最適化(MTO)技術は、オプティマイザ中心の損失スケーリングや勾配操作戦略による衝突解決に固執しており、一貫した性能向上をもたらすことに失敗しています。本論文では、タスク間の相互作用が自然に発生する共有表現空間が、既存のオプティマイザを補完する操作のための豊富な情報と可能性を提供し、特にMTOではほとんど探索されていないタスク間の補完性を促進する可能性があると主張します。この直感から、Rep-MTLが導かれます。Rep-MTLは、表現レベルのタスク顕著性を利用して、タスク固有の最適化と共有表現学習の間の相互作用を定量化します。エントロピーベースのペナルティとサンプル単位のクロスタスクアラインメントを通じてこれらの顕著性を導くことで、Rep-MTLは純粋な衝突解決ではなく、個々のタスクの効果的なトレーニングを維持することで負の転移を軽減し、補完的な情報共有を明示的に促進することを目指します。実験は、タスクシフトとドメインシフトの両方のシナリオをカバーする4つの挑戦的なMTLベンチマークで実施されました。結果は、基本的な均等重み付けポリシーと組み合わせたRep-MTLでも、競争力のある性能向上と良好な効率性を達成することを示しています。標準的な性能指標を超えて、Power Law指数分析は、Rep-MTLがタスク固有の学習とクロスタスク共有のバランスを取る効果を実証しています。プロジェクトページはHEREで利用可能です。
視覚観察から4次元空間知能を再構築することは、コンピュータビジョンにおいて長らく中心的な課題でありながらも困難なテーマであり、幅広い実世界の応用が存在します。これらの応用は、映画などのエンターテインメント分野(基本的な視覚要素の再構築に焦点が当てられることが多い)から、エンボディードAI(相互作用のモデリングや物理的なリアリズムを重視する)まで多岐にわたります。3D表現や深層学習アーキテクチャの急速な進展に後押しされ、この分野は急速に進化しており、過去のサーベイの範囲を超えています。さらに、既存のサーベイでは、4Dシーン再構築の階層構造を包括的に分析することはほとんどありません。このギャップを埋めるため、我々は既存の手法を5つの段階的な4次元空間知能のレベルに整理する新たな視点を提示します:(1) レベル1 — 低次元の3D属性(深度、ポーズ、ポイントマップなど)の再構築、(2) レベル2 — 3Dシーン構成要素(物体、人間、構造物など)の再構築、(3) レベル3 — 4D動的シーンの再構築、(4) レベル4 — シーン構成要素間の相互作用のモデリング、(5) レベル5 — 物理法則と制約の組み込み。本サーベイでは、各レベルにおける主要な課題を議論し、より豊かな4次元空間知能に向けた有望な方向性を強調します。継続的な進展を追跡するため、最新のプロジェクトページを維持しています: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence。
近年の進歩として、Group Relative Policy Optimization(GRPO)は、トークンレベルの報酬の算術平均を最適化することで、大規模言語モデルの推論能力を向上させてきました。しかし、GRPOは、外れ値となる重要度重み付き報酬を持つトークンを処理する際に、不安定なポリシー更新に悩まされており、これはトレーニング中に極端な重要度サンプリング比(現在のポリシーと古いポリシーによってトークンに割り当てられるサンプリング確率の比)として現れます。本研究では、GRPOの安定化バリアントであるGeometric-Mean Policy Optimization(GMPO)を提案します。GMPOは算術平均ではなく、トークンレベルの報酬の幾何平均を最大化することで、外れ値に対して本質的に敏感ではなく、重要度サンプリング比の範囲をより安定させます。さらに、GMPOの設計と安定性の利点を正当化するために、包括的な理論的および実験的分析を提供します。安定性の向上に加えて、GMPO-7Bは、AIME24、AMC、MATH500、OlympiadBench、Minerva、Geometry3Kを含む複数の数学的ベンチマークで平均4.1%、マルチモーダル推論ベンチマークで1.4%の性能向上を示しています。コードはhttps://github.com/callsys/GMPOで公開されています。
長い連鎖思考(CoT)能力を持つ大規模推論モデル(LRM)は、数学的推論やコーディングなどの客観的タスクにおいて強力な性能を示しています。しかし、異なる視点から異なる回答が得られる可能性のある主観的な質問に対する有効性は、教師ありファインチューニングにおける単一の正解と強化学習における検証可能な報酬への依存によって導入される均質な推論の傾向によって制限されています。役割視点を増やすことが一貫して性能を向上させるという発見に動機づけられ、私たちはMultiRole-R1を提案します。これは、複数の役割視点を持つ多様性強化フレームワークであり、主観的推論タスクにおける精度と多様性を向上させます。MultiRole-R1は、多様な役割視点を取り入れた推論連鎖を生成する教師なしデータ構築パイプラインを特徴としています。さらに、検証可能な報酬に加えて多様性を報酬信号として取り入れるGroup Relative Policy Optimization(GRPO)による強化学習を採用しています。特別に設計された報酬関数により、視点の多様性と語彙の多様性を促進し、推論の多様性と精度の間に正の関係があることを明らかにしました。6つのベンチマークでの実験により、MultiRole-R1が主観的および客観的推論の両方を強化する有効性と汎用性を示し、LRMにおける多様性強化トレーニングの可能性を実証しました。
GPT-4oのような大規模マルチモーダルモデルの最近の進展は、高忠実度で指示に基づく画像編集の新たな基準を確立しました。しかし、これらのモデルとその学習データのプロプライエタリな性質は、オープンソース研究にとって大きな障壁となっています。このギャップを埋めるため、我々はGPT-IMAGE-EDIT-1.5Mを紹介します。これは、150万以上の高品質なトリプレット(指示、元画像、編集画像)を含む公開可能な大規模画像編集コーパスです。我々は、GPT-4oの多機能な能力を活用して、OmniEdit、HQ-Edit、UltraEditという3つの人気画像編集データセットを統合・精緻化することで、このデータセットを体系的に構築しました。具体的には、1) 視覚品質と指示の整合性を向上させるために出力画像を再生成し、2) 意味的明確さを改善するためにプロンプトを選択的に書き換えるという方法論を採用しました。我々のデータセットの有効性を検証するため、GPT-IMAGE-EDIT-1.5Mで先進的なオープンソースモデルをファインチューニングしました。その結果は非常に有望で、例えば、ファインチューニングされたFluxKontextは、GEdit-ENで7.24、ImgEdit-Fullで3.80、Complex-Editで8.78という包括的なベンチマークスイートで高い競争力を示し、指示の遵守と知覚品質の向上を維持しながら、アイデンティティを保持しました。これらのスコアは、これまでに発表されたすべてのオープンソース手法を大幅に上回り、主要なプロプライエタリモデルとのギャップを大幅に縮めました。我々は、GPT-IMAGE-EDIT-1.5Mの完全公開が、指示に基づく画像編集のさらなるオープン研究を促進することを期待しています。
視覚表現の学習は、幅広い下流タスクの基盤となる。最近の視覚-言語コントラスティブモデル(CLIPやSigLIPなど)は、大規模な視覚-言語アラインメントを通じて印象的なゼロショット性能を達成しているが、グローバル表現への依存が、グラウンディング、OCR、セグメンテーションなどの密な予測タスクにおける有効性を制限している。このギャップを埋めるため、我々はRegion-Aware Cluster Discrimination(RICE)という新しい手法を提案する。これは、領域レベルの視覚およびOCR能力を強化するものである。まず、10億規模の候補領域データセットを構築し、豊富な領域セマンティクスを抽出するためのRegion Transformer層を提案する。さらに、単一の分類フレームワーク内で物体とOCRの学習を共同でサポートする統一された領域クラスタ識別損失を設計し、大規模データに対する効率的でスケーラブルな分散トレーニングを可能にする。広範な実験により、RICEがセグメンテーション、密な検出、マルチモーダル大規模言語モデル(MLLM)の視覚知覚を含むタスクにおいて、従来の手法を一貫して上回ることが示された。事前学習済みモデルはhttps://github.com/deepglint/MVTで公開されている。
ドキュメント画像の補正は、撮影された文書の幾何学的な歪みを除去し、テキスト認識を容易にすることを目的としています。しかし、既存の手法では、前景要素の重要性がしばしば見過ごされています。前景要素は、ドキュメント画像補正のための重要な幾何学的参照およびレイアウト情報を提供します。本論文では、ドキュメント画像の幾何学的歪みを除去するために、Foreground-Centric Network(ForCenNet)を提案します。具体的には、まず前景中心のラベル生成手法を提案し、歪みのない画像から詳細な前景要素を抽出します。次に、前景中心のマスクメカニズムを導入し、読み取り可能な領域と背景領域の区別を強化します。さらに、詳細な前景ラベルを活用してモデルが歪んだ幾何学的分布を理解するのを助けるために、曲率一貫性損失を設計します。大規模な実験により、ForCenNetがDocUNet、DIR300、WarpDoc、DocRealといった4つの実世界ベンチマークで新たな最先端の性能を達成することが示されています。定量的分析により、提案手法がテキスト行や表の境界線などのレイアウト要素を効果的に補正することが明らかになりました。さらなる比較のためのリソースはhttps://github.com/caipeng328/ForCenNetで提供されています。
永続的な3Dシーン生成は、長距離かつ一貫性のある3Dビューシーケンスを生成することを目的としており、長期ビデオ合成や3Dシーン再構築に適用可能です。既存の手法は「ナビゲート・アンド・イマジン」方式に従い、連続的なビュー拡張のためにアウトペインティングに依存しています。しかし、生成されたビューシーケンスは、アウトペインティングモジュールの累積的な偏差に起因する意味的ドリフトの問題に悩まされています。この課題に対処するため、我々はScenePainterを提案します。これは、意味的に一貫した3Dシーン生成のための新しいフレームワークであり、アウトペインターのシーン固有の事前知識を現在のシーンの理解と整合させます。具体的には、SceneConceptGraphと呼ばれる階層的グラフ構造を導入し、マルチレベルシーン概念間の関係を構築します。これにより、アウトペインターが一貫した新規ビューを生成するための指針となり、多様性を高めるために動的に洗練されることができます。大規模な実験により、我々のフレームワークが意味的ドリフトの問題を克服し、より一貫性があり没入感のある3Dビューシーケンスを生成することが実証されました。プロジェクトページ: https://xiac20.github.io/ScenePainter/。
地球規模の気候変動による極端な気象現象の頻発は、正確な天気予報の必要性を高めています。近年、深層学習技術の発展により、エンドツーエンドの手法が大きな進歩を遂げていますが、多変数統合における表現の不整合や、複雑な気象システムで必要とされる変数間の依存関係を効果的に捉えることに課題を抱えています。異なる変数を別々のモダリティとして扱い、マルチモーダルモデルから二段階の学習アプローチを適用することで、この問題を部分的に緩和できますが、二段階間の学習タスクの不一致により、結果が最適でないことがしばしばあります。これらの課題に対処するため、我々は各変数に対して個別のエンコーダとデコーダを設定した暗黙的な二段階学習手法を提案します。具体的には、第一段階ではTranslatorを凍結し、エンコーダとデコーダが共有潜在空間を学習し、第二段階ではエンコーダとデコーダを凍結し、Translatorが変数間の相互作用を捉えて予測を行います。さらに、潜在空間における多変数融合のための自己注意機構を導入することで、性能がさらに向上します。実験結果から、本手法が最先端の性能を達成することが示されています。具体的には、地表気温と相対湿度の予測において、MSEをそれぞれ28.82%と23.39%削減しました。ソースコードはhttps://github.com/ShremG/Met2Netで公開されています。
大規模言語モデル(LLMs)の最近の進展により、検証可能な報酬を用いた強化学習(RLVR)が、長い出力シーケンスを通じて推論能力を向上させる可能性が浮き彫りになってきました。しかし、従来のRLフレームワークは、超長い出力を扱う際に、ロングテールシーケンス分布やトレーニング中のエントロピー崩壊による非効率性に直面しています。これらの課題に対処するため、我々は大規模言語モデルの推論能力を向上させるための超長出力強化学習(UloRL)アプローチを提案します。具体的には、超長い出力デコードを短いセグメントに分割し、ロングテールサンプルによる遅延を緩和することで効率的なトレーニングを実現します。さらに、エントロピー崩壊を防ぐために、習熟した正のトークン(MPTs)の動的マスキングを導入します。実験結果は、我々のアプローチの有効性を示しています。Qwen3-30B-A3Bモデルでは、セグメントロールアウトを用いたRLによりトレーニング速度が2.06倍向上し、128kトークンの出力を用いたRLトレーニングにより、AIME2025でのモデルの性能が70.9%から85.1%に、BeyondAIMEでは50.7%から61.9%に向上し、Qwen3-235B-A22Bを凌ぐ顕著な成果を達成しました。これらの発見は、超長シーケンス生成を用いたLLMsの推論能力を進化させる我々の手法の可能性を強調しています。我々は、コミュニティのさらなる利用のためにコードとモデルを公開する予定です。
拡散モデルとフローマッチングモデルは、近年のテキストからオーディオへの自動生成において革命をもたらしました。これらのモデルは、音声や音響イベントを忠実に再現する高品質なオーディオ出力を生成する能力をますます高めています。しかし、主に音楽や歌を対象とした創造的なオーディオ生成においては、まだ改善の余地が多く残されています。最近のオープンな歌詞から歌への生成モデル、例えばDiffRhythm、ACE-Step、LeVoなどは、娯楽用途の自動歌生成において一定の基準を確立しました。しかし、これらのモデルは、音楽家がワークフローで求めるような細かい単語レベルの制御性を欠いています。私たちの知る限り、フローマッチングを基盤としたJAMは、歌生成において単語レベルのタイミングと持続時間の制御を可能にする初めての試みであり、細かいボーカル制御を実現しています。生成された歌の品質を向上させ、人間の好みにより適応させるために、Direct Preference Optimizationを用いた美的アラインメントを実装し、合成データセットを用いてモデルを反復的に改良することで、手動のデータ注釈を不要としています。さらに、公開評価データセットJAMEを通じて、このような歌詞から歌へのモデルの評価を標準化することを目指しています。JAMは、音楽固有の属性において既存のモデルを凌駕することを示しています。
私たちは、テキストから音楽を生成するモデル(TTM)のスケーラブルな人間の嗜好評価のためのオープンプラットフォームであるMusic Arenaを紹介します。リスニングスタディを通じて人間の嗜好を収集することは、TTM評価におけるゴールドスタンダードですが、これらのスタディは実施にコストがかかり、システム間でプロトコルが異なるため比較が困難です。さらに、人間の嗜好は研究者がTTMシステムを調整したり、自動評価指標を改善したりするのに役立つ可能性がありますが、オープンで再生可能な嗜好データのソースは現在存在しません。私たちは、TTMのための*ライブ*評価を提供することでこれらのギャップを埋めることを目指しています。Music Arenaでは、現実世界のユーザーが自分で選んだテキストプロンプトを入力し、2つのTTMシステムの出力を比較し、その嗜好を使用してリーダーボードを編成します。Music Arenaは他のAIドメインにおける最近の評価トレンドに従っていますが、音楽に特化した重要な機能も設計しています:TTMシステムの異なるタイプシグネチャをナビゲートするためのLLMベースのルーティングシステム、リスニングデータや自然言語フィードバックを含む*詳細な*嗜好の収集などです。また、ユーザーのプライバシーを保証したローデータリリースポリシーを提案し、再生可能な嗜好データのソースを提供し、プラットフォームの透明性を高めます。標準化された評価プロトコル、透明性のあるデータアクセスポリシー、音楽に特化した機能を通じて、Music ArenaはTTMエコシステムにおける主要な課題に対処するだけでなく、ライブ評価が特定のAIドメインのユニークな特性にどのように慎重に適応できるかを示しています。 Music Arenaは以下で利用可能です:https://music-arena.org
大規模言語モデル(LLMs)は、強化学習を通じた段階的推論の向上において顕著な進歩を遂げてきました。しかし、スパースな報酬ルールに依存するGroup Relative Policy Optimization(GRPO)アルゴリズムは、グループ内で同一の報酬が発生する問題に直面しやすく、これがアドバンテージ崩壊問題を引き起こします。既存の研究では、この課題に対処するために主に2つのアプローチが取られています:モデルのリフレクションを強化して応答の多様性を高める方法と、内部フィードバックを導入してトレーニング信号(アドバンテージ)を増強する方法です。本研究では、まずモデルリフレクションの限界を分析し、細かいサンプルレベルでの応答のポリシーエントロピーを調査します。実験結果に基づいて、エントロピー駆動型アドバンテージとガイド付きエラー補正を採用したEDGE-GRPOアルゴリズムを提案し、アドバンテージ崩壊問題を効果的に緩和します。主要な推論ベンチマークでの大規模な実験により、本手法の有効性と優位性が実証されました。詳細はhttps://github.com/ZhangXJ199/EDGE-GRPOで公開されています。
言語モデル(LM)が強化学習(RL)を用いて自然言語の「推論チェーン」を生成するように訓練されると、様々な難易度の高い質問応答タスクにおいてその性能が向上します。現在、推論におけるRLの成功例のほとんどは、LMの出力の正しさを評価する二値報酬関数を使用しています。しかし、このような報酬関数は推測や低信頼度の出力を罰しないため、しばしば意図しない副作用として、他の問題領域においてLMが誤った応答(または「幻覚」)を生成する割合を増加させ、キャリブレーションを低下させることがあります。本論文では、RLCR(Reinforcement Learning with Calibration Rewards)というアプローチを紹介します。これは、推論モデルの訓練において、精度とキャリブレーションされた信頼度推定を同時に改善する方法です。RLCRでは、LMは推論後に予測と数値的な信頼度推定を生成します。これらは、二値の正解スコアにBrierスコア(キャリブレーションされた予測を促す信頼度推定のスコアリングルール)を加えた報酬関数を最適化するように訓練されます。まず、この報酬関数(または類似の有界で適切なスコアリングルールを使用する報酬関数)が、正確かつ良好にキャリブレーションされた予測を生成するモデルをもたらすことを証明します。次に、多様なデータセットにおいて、RLCRがキャリブレーションを大幅に改善し、精度を損なうことなく、ドメイン内およびドメイン外の評価で優れた結果を示すことを示します。通常のRL訓練や事後的に信頼度スコアを割り当てるように訓練された分類器を凌駕します。通常のRLはキャリブレーションを損なうのに対し、RLCRはそれを改善します。最後に、テスト時に言語化された信頼度を活用して、信頼度に基づくスケーリング手法を用いて精度とキャリブレーションを向上させることを実証します。我々の結果は、キャリブレーションを明示的に最適化することが、より一般的に信頼性の高い推論モデルを生成できることを示しています。
高度な数学的推論能力を備えた大規模言語モデル(LLMs)に対する需要が、産業界全体で高まっている。しかし、性能の高い数学的LLMsの開発は、難易度が高く新規性のあるトレーニングデータの不足によって深刻なボトルネックに直面している。本論文では、この問題に対処するため、SAND-Math(Synthetic Augmented Novel and Difficult Mathematics problems and solutions)を提案する。このパイプラインは、まず高品質な問題をゼロから生成し、その後、新たに開発した「Difficulty Hiking」ステップを通じてその複雑さを体系的に高めるものである。我々のアプローチの有効性は、以下の2つの主要な発見によって示されている。第一に、強力なベースラインにSAND-Mathデータを追加することで性能が大幅に向上し、AIME25ベンチマークにおいて次善の合成データセットを最大17.85ポイント上回った。第二に、詳細なアブレーションスタディにおいて、Difficulty Hikingプロセスが非常に効果的であることを示した。平均問題難易度を5.02から5.98に引き上げることで、AIME25の性能が46.38%から49.23%に向上した。完全な生成パイプライン、最終データセット、およびファインチューニングされたモデルは、より能力が高く効率的な数学的推論LLMsを構築するための実用的でスケーラブルなツールキットを形成する。SAND-Mathデータセットは以下のURLで公開されている: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
ユーザーシミュレータは、会話型AIにおいて不可欠な存在であり、シミュレートされたインタラクションを通じてエージェントの開発と評価をスケーラブルに実現します。現在の大規模言語モデル(LLMs)はユーザーシミュレーション能力を向上させていますが、マルチターン会話において一貫した目標指向の行動を示すことが困難であることが明らかになりました。これは、下流アプリケーションにおける信頼性を損なう重大な制約です。本論文では、会話全体を通じてユーザーの目標進捗を追跡する新たなフレームワークである「ユーザー目標状態追跡(UGST)」を提案します。UGSTを活用し、目標進捗を自律的に追跡し、目標に沿った応答を生成するための三段階の方法論を提示します。さらに、ユーザーシミュレータにおける目標整合性を測定するための包括的な評価指標を確立し、我々のアプローチが2つのベンチマーク(MultiWOZ 2.4および{\tau}-Bench)において大幅な改善をもたらすことを実証します。本論文の貢献は、会話型AIにおける重要なギャップを埋め、UGSTを目標整合型ユーザーシミュレータ開発の必須フレームワークとして確立することです。
遺伝子発現解析は多くの生物医学的発見の鍵を握っていますが、生のトランスクリプトミクスデータから洞察を抽出することは、複数の大規模で半構造化されたファイルの複雑さと、広範なドメイン知識の必要性により、依然として困難を極めます。現在の自動化アプローチは、エッジケースで破綻する柔軟性のないワークフローか、厳密な科学的探究に必要な精度を欠く完全自律エージェントのいずれかに限られています。GenoMASは、構造化されたワークフローの信頼性と自律エージェントの適応性を統合したLLMベースの科学者チームを提示することで、異なる道を切り開きます。GenoMASは、型付きメッセージパッシングプロトコルを通じて6つの専門化されたLLMエージェントを調整し、それぞれが共有分析キャンバスに相補的な強みを提供します。GenoMASの中核には、ガイド付きプランニングフレームワークがあります:プログラミングエージェントは、高レベルのタスクガイドラインをアクションユニットに展開し、各分岐点で進む、修正する、迂回する、または戻ることを選択し、ゲノムデータの特異性に柔軟に対応しながら論理的一貫性を維持します。 GenoTEXベンチマークにおいて、GenoMASはデータ前処理で89.13%の複合類似性相関を達成し、遺伝子同定ではF_1スコア60.48%を記録し、従来の最高技術をそれぞれ10.61%と16.85%上回りました。指標を超えて、GenoMASは文献によって裏付けられた生物学的に妥当な遺伝子-表現型関連を浮き彫りにし、潜在的な交絡因子を調整します。コードはhttps://github.com/Liu-Hy/GenoMASで入手可能です。
大規模言語モデル(LLM)がネイティブコードインタプリタを統合するにつれ、強力なリアルタイム実行機能が可能となり、その有用性が大幅に拡大しています。しかし、このような統合は、プロンプトベースの脆弱性とは根本的に異なるシステムレベルのサイバーセキュリティ脅威を引き起こします。これらのインタプリタ固有のリスクを体系的に評価するため、我々はCIRCLE(Code-Interpreter Resilience Check for LLM Exploits)を提案します。これは、CPU、メモリ、ディスクリソースの枯渇をターゲットとした1,260のプロンプトからなるシンプルなベンチマークです。各リスクカテゴリには、明らかに悪意のある(「直接」)プロンプトと、一見無害に見える(「間接」)プロンプトのバリエーションが含まれています。我々の自動評価フレームワークは、LLMがリスクのあるコードを拒否するか生成するかだけでなく、生成されたコードをインタプリタ環境内で実行し、コードの正確性、LLMがコードを安全にするために行った簡略化、または実行タイムアウトを評価します。OpenAIとGoogleの7つの商用モデルを評価した結果、重大かつ一貫性のない脆弱性が明らかになりました。例えば、評価結果は、プロバイダ内でも大きな差異を示しています。OpenAIのo4-miniはリスクのあるリクエストを7.1%で正しく拒否し、GPT-4.1の0.5%と比較して顕著に高い割合を示しました。結果は特に、間接的でソーシャルエンジニアリングされたプロンプトがモデルの防御を大幅に弱めることを強調しています。これは、インタプリタ固有のサイバーセキュリティベンチマーク、専用の緩和ツール(例:ガードレール)、およびLLMインタプリタ統合の安全かつ責任ある展開を導く明確な業界標準の緊急の必要性を浮き彫りにしています。ベンチマークデータセットと評価コードは、さらなる研究を促進するために公開されています。