翻訳付きの日次キュレーションされたAI研究論文
教師ありファインチューニング(SFT)はドメイン適応の標準的なパラダイムであるが、しばしば破滅的忘却のコストを伴う。これとは対照的に、方策オン型強化学習(RL)は一般的な能力を効果的に保持する。本研究ではこの不一致を検証し、根本的な分布ギャップを特定した:RLはモデルの内部信念と整合する一方、SFTはモデルに外部監視への適合を強制する。この不一致は「確信度の高い衝突」トークンとして顕在化し、低確率ながら低エントロピーという特徴を示す。この状況では、モデルは自身の予測に高い確信を持っているが、相反する正解を学習することを強制され、破壊的な勾配更新が引き起こされる。この問題に対処するため、我々はエントロピー適応型ファインチューニング(EAFT)を提案する。予測確率のみに依存する手法とは異なり、EAFTはトークンレベルのエントロピーをゲーティング機構として利用し、認識的不確実性と知識衝突を識別する。これにより、モデルは不確実なサンプルから学習しつつ、衝突データにおける勾配を抑制することが可能となる。QwenおよびGLMシリーズ(パラメータ数4Bから32B)を用いた数学、医療、エージェント領域における大規模な実験により、我々の仮説を実証した。EAFTは標準的なSFTと同等の下流タスク性能を維持しつつ、一般的な能力の劣化を大幅に軽減することを一貫して確認した。
我々は、エージェントが実行可能なスキルのライブラリを構築・洗練・再利用し続ける必要がある、オープンエンドな具身環境における継続的スキル獲得を研究する。本論文では、プログラム的スキルネットワーク(PSN)を提案する。PSNは、スキルを実行可能な記号的プログラムとして構成し、経験を通じて発展する合成的ネットワークを形成する枠組みである。PSNは大規模言語モデルによって実現される三つの核心的メカニズムを定義する:(1) スキル合成に対する構造化された故障箇所特定のためのREFLECT、(2) 信頼性の高いスキルは安定化させつつ不確実なスキルには可塑性を維持する、成熟度を考慮した更新ゲート付きの段階的最適化、(3) ロールバック検証下での正則化された構造的リファクタリングにより、ネットワークのコンパクト性を維持する。さらに、PSNの学習ダイナミクスがニューラルネットワーク訓練との構造的類似性を示すことを明らかにする。MineDojoとCrafterを用いた実験により、オープンエンドなタスク分布にわたる頑健なスキル再利用、迅速な適応、および強力な汎化性能が実証された。\footnote{コードはオープンソース化を予定している。}
大規模言語モデル(LLM)と外部ツールの統合は、AIエージェントの能力を大幅に拡張してきた。しかし、LLMとツールの両方の多様性が増すにつれ、最適なモデルとツールの組み合わせの選択は高次元の最適化課題となっている。既存のアプローチは単一のモデルや固定されたツール呼び出しロジックに依存することが多く、異種モデル・ツールペア間の性能変動を活用できていない。本論文では、クロスドメイン複雑推論における動的ツール利用のためのデュアルパスフレームワーク「ATLAS(Adaptive Tool-LLM Alignment and Synergistic Invocation)」を提案する。ATLASは二つの経路で動作する:(1)経験的事前分布を活用したドメイン特化アラインメントのための訓練不要なクラスタベースルーティング、(2)分布外汎化のための自律軌道探索を実現する強化学習ベースの多段階ルーティング。15のベンチマークによる大規模実験により、本手法がGPT-4oのようなクローズドソースモデルを上回り、既存のルーティング手法に対しても分布内タスク(+10.1%)と分布外タスク(+13.1%)の両方で優れた性能を発揮することを実証した。さらに、専門的なマルチモーダルツールを協調させることで、視覚推論において顕著な性能向上を示す。
大規模言語モデル(LLM)を評価するためのベンチマークが急増する中、ベンチマークの品質そのものを体系的に評価する手法が緊急に求められている。本論文では、3つの相補的指標から構成される総合的な枠組み「Benchmark^2」を提案する:(1)他ベンチマークとの整合性を測る「クロスベンチマーク順位一貫性」、(2)モデル間の識別能力を定量化する「識別性スコア」、(3)同一モデルファミリー内で強力なモデルが失敗し弱いモデルが成功する問題事例を特定する「能力整合性偏差」である。数学、推論、知識領域にわたる15のベンチマークと4つのモデルファミリーに属する11のLLMを用いた大規模な実験を実施した。分析により、既存ベンチマーク間に有意な品質差が存在すること、および提案指標に基づく選択的ベンチマーク構築が、テストセットを大幅に縮小しながら同等の評価性能を達成できることを実証する。
音声-映像の統合生成技術は急速に進歩しているものの、依然として大きな課題が残っている。非商用アプローチでは、音声と映像の非同期、口唇と音声の不一致、単一モダリティの品質劣化といった問題が発生しており、これらは音声-映像対応関係のモデリングの弱さ、限定的な汎化性能、高品質な詳細キャプションデータの不足に起因する。これらの課題に対処するため、我々はKlearを提案し、モデルアーキテクチャ、学習戦略、データ構築の3つの軸から検討を行う。アーキテクチャ面では、統一されたDiTブロックとOmni-Full Attention機構を採用したシングルタワー設計により、音声と映像の緊密な同期と強力な拡張性を実現した。学習戦略では、ランダムモダリティマスキングによるタスク間共同最適化と、多段階カリキュラム学習からなる段階的多タスク学習を採用し、頑健な表現学習、音声-映像連携した世界知識の強化、単一モダリティ崩壊の防止を達成した。データセットに関しては、詳細キャプションを付与した初の大規模音声-映像データセットを構築し、数百万の多様で高品質、厳密に同期した音声-映像-キャプションの三組を自動的に注釈付け・選別する新しいデータ構築パイプラインを導入した。これらに基づくKlearは大規模データセットでの学習が可能であり、統合生成と単一モダリティ生成の両設定において、高精細で意味的・時間的に同期した指示追従型の生成を実現するとともに、分布外シナリオに対しても頑健に汎化する。各種タスクにおいて、従来手法を大幅に上回る性能を発揮し、Veo 3に匹敵する性能を達成しており、次世代の音声-映像統合合成に向けた統一かつ拡張可能な道筋を示している。
我々の物理的4D(3D+時間)世界における動的オブジェクトは、絶えず進化し、変形し、他のオブジェクトと相互作用することで、多様な4Dシーンダイナミクスを生み出しています。本論文では、この種の現象を動的オブジェクトやシーンに「振付(コレオグラフ)」し合成するための普遍的生成パイプライン「CHORD」を提案します。従来のルールベースのグラフィックスパイプラインはカテゴリ固有のヒューリスティクスに基づいていますが、労力を要し拡張性に欠けます。近年の学習ベース手法は大規模データセットを必要とすることが一般的で、対象となる全オブジェクトカテゴリを網羅できない可能性があります。我々のアプローチでは、2D動画のオイラー表現に潜む豊富なラグランジュ運動情報を抽出する蒸留ベースのパイプラインを提案することで、動画生成モデルから普遍性を継承しています。本手法は普遍的で汎用的、かつカテゴリに依存しません。多様な多体4Dダイナミクスの生成実験を通じてその有効性を実証し、既存手法に対する優位性を示すとともに、ロボティクス操作ポリシー生成への応用可能性を提示します。プロジェクトページ: https://yanzhelyu.github.io/chord
近年の強化学習は、人間の嗜好に沿ったフローマッチングモデルの改善に貢献してきた。確率的サンプリングはノイズ除去方向の探索を可能にする一方で、複数のノイズ除去ステップにわたって最適化を行う既存手法は、スパースで曖昧な報酬信号に悩まされている。我々は、エントロピーが高いステップではより効率的かつ効果的な探索が可能となるのに対し、エントロピーが低いステップでは区別のつきにくいロールアウトが生じることを観察した。この問題に対処するため、我々はSDEサンプリングステップのエントロピーを高めるエントロピー認識型グループ相対方策最適化(E-GRPO)を提案する。確率微分方程式の統合は複数ステップからの確率性により曖昧な報酬信号が生じるため、連続する低エントロピーステップを統合して一つの高エントロピーSDEサンプリングステップを構成し、その他のステップにはODEサンプリングを適用する。これを基盤として、同一の統合SDEノイズ除去ステップを共有するサンプル内でグループ相対アドバンテージを計算する、多ステップグループ正規化アドバンテージを導入する。様々な報酬設定における実験結果は、本手法の有効性を実証している。
検証はエージェント改善において極めて重要である:それは強化学習に対する報酬信号を提供し、テスト時スケーリング(TTS)による推論時の性能向上を可能にする。しかしその重要性にもかかわらず、ソフトウェアエンジニアリング(SWE)エージェント設定における検証は、コード実行に依存することが多く、環境構築のオーバーヘッドによりスケーリングが困難な場合がある。パッチ分類器やヒューリスティック手法などのスケーラブルな代替手段は存在するが、これらはコードベースの文脈に基づきにくく、解釈が難しい。そこで我々は「エージェント式ルーブリック」を提案する:専門家エージェントがリポジトリと対話して文脈に基づいたルーブリックチェックリストを作成し、テスト実行を必要とせずに候補パッチをそれに対して評価する。並列TTS評価によるSWE-Bench Verifiedでは、エージェント式ルーブリックはQwen3-Coder-30B-A3Bで54.2%、Qwen3-32Bで40.6%のスコアを達成し、比較対象の最強ベースラインよりも少なくとも+3.5ポイントの向上を示した。さらにルーブリックの挙動を分析し、ルーブリックスコアがグラウンドトゥルーステストと整合性を持つ一方で、テストが捕捉できない問題も検出できることを示す。アブレーション研究により、コードベース固有の明確な基準を生成するには、エージェントによる文脈収集が不可欠であることが確認された。これらの結果は総合的に、エージェント式ルーブリックがSWEエージェントに対して効率的でスケーラブル、かつ詳細な検証信号を提供することを示唆している。
分子動力学(MD)シミュレーションは材料科学における原子スケールの挙動を理解するために不可欠であるが、LAMMPSスクリプトの作成は依然として高度に専門的で時間を要する作業である。大規模言語モデル(LLM)はコード生成やドメイン特化の質問応答で有望な可能性を示しているものの、MD分野での性能は、ドメインデータの不足、最新LLMの高い導入コスト、コードの低い実行可能性によって制限されている。我々の以前の研究MDAgentを発展させ、本論文ではMD分野において知識Q&Aとコード生成の両方を実行可能な初のエンドツーエンドフレームワークであるMDAgent2を提案する。MD知識、質問応答、コード生成の3つの高品質データセットを構築するドメイン特化データ構築パイプラインを開発した。これらのデータセットに基づき、継続事前学習(CPT)、教師ありファインチューニング(SFT)、強化学習(RL)の3段階のポストトレーニング戦略を採用し、ドメイン適応モデルMD-InstructとMD-Codeを訓練した。さらに、シミュレーション結果を報酬信号として活用し、低報酬軌道を継続的な改善のために再利用する閉ループRL手法MD-GRPOを導入する。コード生成、実行、評価、自己修正を統合した導入可能なマルチエージェントシステムMDAgent2-RUNTIMEを構築した。本論文で提案するLAMMPSコード生成と質問応答の初のベンチマークMD-EvalBenchと併せ、我々のモデルとシステムは複数の強力なベースラインを上回る性能を達成した。本研究は、産業シミュレーションタスクにおける大規模言語モデルの適応性と汎化能力を体系的に実証し、AI for Scienceおよび産業規模シミュレーションにおける自動コード生成の方法論的基盤を確立するものである。URL: https://github.com/FredericVAN/PKU_MDAgent2
信頼性の高い疫学的推論には、集団レベルでの疾病負荷、伝播動態、介入効果を推測するために、研究エビデンスを統合する能力が求められる。既存の医療質問応答ベンチマークは主に臨床知識や患者単位の推論を重視しているが、エビデンスに基づく疫学的推論を体系的に評価するものはほとんどない。本研究では、多様な疾病を対象とした疫学的質問応答のための初の診断的ベンチマークであるEpiQALを提案する。これはオープンアクセス文献から構築された3つのサブセットから構成され、それぞれ、テキストに基づく事実の想起、文献エビデンスと疫学原理を結びつける多段階推論、およびDiscussionセクションを隠した状態での結論再構築を評価する。構築には、専門家が設計した分類体系のガイダンス、複数モデルによる検証、および検索ベースの難易度調整を組み合わせている。10のオープンモデルを用いた実験により、現在の大規模言語モデルは疫学的推論において限定的な性能しか示さず、多段階推論が最大の課題であることが明らかになった。モデルの順位はサブセット間で変動し、規模だけでは成功を予測できない。連鎖的思考(Chain-of-Thought)プロンプトは多段階推論に有効だが、その他の領域では結果が一貫しなかった。EpiQALは、エビデンスの基盤付け、推論的思考、結論の再構築に関する、きめ細かい診断信号を提供する。
大規模言語モデル(LLM)が安全性が重視される応用分野で不可欠となるにつれ、敵対的プロンプトに対する頑健性の確保が極めて重要となっている。しかし、既存のレッドチーミングデータセットは、リスク分類の不統一、ドメインカバレッジの限界、評価手法の陳腐化といった問題を抱えており、体系的な脆弱性評価の妨げとなっている。これらの課題に対処するため、本論文ではRedBenchを提案する。これは主要な学会やリポジトリから37のベンチマークデータセットを集約した普遍的なデータセットであり、攻撃プロンプトと拒否プロンプトに分類される29,362のサンプルで構成される。RedBenchは22のリスクカテゴリと19のドメインからなる標準化された分類体系を採用し、LLMの脆弱性を一貫性かつ包括的に評価することを可能にする。我々は既存データセットの詳細な分析を提供し、現代のLLMに対するベースラインを確立するとともに、データセットと評価コードを公開する。これらの貢献により、頑健な比較が容易になり、将来の研究が促進され、実世界での展開に向けた安全で信頼性の高いLLMの開発が推進されることが期待される。コード: https://github.com/knoveleng/redeval
我々は、科学的研究ワークフローの各段階に対応する6つのLLMエージェントからなるパイプラインを用いて、機械学習研究論文の自律的生成を試みた4件のエンドツーエンド事例を報告する。4件の試みのうち、3件は実装または評価段階で失敗に終わった。1件はパイプラインを完遂し、AIシステムを第一著者とすることを要件とした実験的な創設会議であるAgents4Science 2025に採録され、人間及び複数AIによる査読の双方を通過した。これらの試行から、我々は繰り返し発生する6つの失敗モードを記録した:学習データのデフォルト値へのバイアス、実行プレッシャー下での実装の乖離(ドリフト)、長期的タスクにおけるメモリと文脈の劣化、明らかな失敗にも関わらず成功を宣言する過剰興奮、ドメイン知識の不足、実験設計における科学的センスの欠如である。最後に、より頑健なAI科学者システムのための4つの設計原則、自律的科学発見への示唆について議論し、全てのプロンプト、生成物、出力をhttps://github.com/Lossfunk/ai-scientist-artefacts-v1 で公開する。
言語モデル(LM)は、テキスト系列をトークン単位で生成するために生のテキストデータセットで事前学習される。このアプローチは世界知識や推論能力の習得を促進するが、言語能力を明示的に最適化するものではない。この隔たりを埋めるため、我々は標準的な次トークン予測に加えて言語学習タスクを統合した事前学習フレームワークL2Tを提案する。人間の言語習得に着想を得たL2Tは、生テキストを構造化された入力-出力ペアに変換し、明示的な言語的刺激を提供する。生テキストとL2Tデータを混合したデータでLMを事前学習することは、言語能力ベンチマークにおける総合的な性能を向上させるだけでなく、その習得を加速し、一般的な推論タスクにおいても競争力のある性能を維持する。
マルチモーダル生成モデルを用いた指令駆動型画像編集は急速に進歩しているが、その基盤となる視覚的推論能力は依然として限定的であり、推論を要する編集タスクでは十分な性能が発揮されていない。強化学習(RL)は画像編集の品質向上に応用されているが、(1)確率的ノイズ除去に限定された推論探索、(2)偏った報酬の統合、(3)VLMベースの指令報酬の不安定性、という3つの課題に直面している。本研究では、視覚推論と画像合成を分離し、ノイズ除去を超えた推論探索を可能とする推論中心のRLフレームワーク「ThinkRL-Edit」を提案する。具体的には、オンラインサンプリングにおける生成前の計画段階と振り返り段階を含むChain-of-Thought(CoT)に基づく推論サンプリングを導入し、視覚的結果を確定させる前に複数の意味的仮説を探索し、その妥当性を検証することをモデルに促す。重み付き集約の失敗を回避するため、複数の報酬次元にわたる偏りのない連鎖選好グループ化戦略を提案する。さらに、区間ベースのVLMスコアを二値チェックリストに置き換えることで、複雑な推論に対するより正確で分散が小さく、解釈可能な報酬を実現する。実験により、本手法が推論中心の画像編集において従来手法を大幅に上回り、指令に忠実で視覚的一貫性があり、意味的に根拠のある編集を生成することを示す。
多言語NLPにおけるヒューマン評価はゴールドスタンダードであるが、既存のツールでは設定が非常に複雑で時間がかかり、多大なエンジニアリングと運用上のオーバーヘッドが生じるため、実践ではしばしば省略され、自動評価指標で代替されることが多い。本論文では、エンドツーエンドのヒューマン評価を自動評価と同程度に容易に実行可能にする、軽量でありながら機能豊富なプラットフォーム「Pearmut」を提案する。Pearmutは一般的な参入障壁を除去し、特に機械翻訳に焦点を当てつつ、多言語タスクの評価を支援する。本プラットフォームはDA、ESA、MQMといった標準的な評価プロトコルを実装する一方、新しいプロトコルの試作を可能にする拡張性も備える。特徴として、文書レベルのコンテキスト、絶対評価と比較評価、注意力チェック、ESAAIによる事前注釈、静的割り当てと能動学習に基づく割り当て戦略を提供する。Pearmutにより、信頼性の高いヒューマン評価は偶発的な取り組みではなく、モデル開発と診断の実用的で日常的な構成要素となる。
メモリ拡張生成(MAG)は、大規模言語モデルを外部メモリで拡張し、長文脈推論を可能にする技術である。しかし、既存手法の多くは、単一のメモリストアにおける意味的類似性に依存しており、時間的、因果的、実体情報が混在している。この設計は解釈性と、クエリ意図と検索証拠間の整合性を制限し、最適でない推論精度をもたらす。本論文では、直交する意味的、時間的、因果的、実体グラフに各メモリ項目を分散して表現する、マルチグラフエージェンシックメモリアーキテクチャ「MAGMA」を提案する。MAGMAは検索を、これらの関係的視点に基づくポリシー誘導トラバーサルとして定式化し、クエリ適応型の選択と構造化された文脈構築を実現する。メモリ表現と検索ロジックを分離することで、MAGMAは透明な推論経路と検索に対するきめ細かい制御を提供する。LoCoMoおよびLongMemEvalによる実験により、MAGMAが長期的推論タスクにおいて、既存の最先端エージェンシックメモリシステムを一貫して凌駕することを実証する。
本論文では、堅牢なガウススプラッティングSLAMフレームワークであるRGS-SLAMを提案する。本手法は、GS-SLAMの残差駆動の高密度化ステージを、学習を必要としない対応点からガウス分布への初期化手法で置き換える。残差が示す欠損ジオメトリに基づいて段階的にガウス分布を追加する従来手法とは異なり、RGS-SLAMは、信頼度考慮インライア分類器で精製されたDINOv3記述子から得られた高密度なマルチビュー対応点のワンショット三角測量を実行する。これにより、最適化前に、分布が均一で構造を考慮したガウス分布のシードを生成する。この初期化により、マッピングの初期段階が安定し、収束が約20%高速化される。さらに、テクスチャが豊富で雑多なシーンにおいて、より高いレンダリング忠実度を実現しつつ、既存のGS-SLAMパイプラインとの完全な互換性を維持する。TUM RGB-DおよびReplicaデータセットによる評価では、RGS-SLAMは、最新のガウス分布ベースおよびポイントベースのSLAMシステムと比較して、競争力のある、あるいは優れた位置推定および再構成精度を達成し、最大925 FPSでのリアルタイムマッピング性能を維持する。
既存の1次元視覚トークナイザーは、オート回帰的生成において、言語モデリングの設計原則をほぼ踏襲している。これらは言語に起源を持つトランスフォーマーを直接基盤として構築され、単一階層の潜在トークンを生成し、視覚データをフラットな逐次トークンストリームとして扱う。しかし、この言語に類似した定式化は、視覚の重要な特性、特に視覚モデルにおける収束と効率性に長らく不可欠であった階層的および残差ネットワーク設計を見過ごしている。視覚に「視覚性」を取り戻すため、本論文ではResidual Tokenizer(ResTok)を提案する。これは画像トークンと潜在トークンの両方に対して階層的な残差を構築する1次元視覚トークナイザーである。段階的なマージを通じて得られる階層的表現は、各層でクロスレベル特徴融合を可能にし、表現能力を大幅に強化する。一方、階層間の意味的残差は情報の重複を防ぎ、ARモデリングが容易な、より集中した潜在分布を生み出す。その結果、明示的な制約なしにクロスレベル結合が自然に発生する。生成プロセスを加速化するため、トークンを厳密に1つずつ生成するのではなく、潜在トークンの階層全体を一度に予測することでサンプリングステップを大幅に削減する階層的ARジェネレーターをさらに導入する。大規模な実験により、視覚トークン化において階層的残差の事前分布を復元することがAR画像生成を著しく改善し、僅か9サンプリングステップでImageNet-256においてgFID 2.34を達成することを実証した。コードはhttps://github.com/Kwai-Kolors/ResTok で公開されている。
我々は、シーンレベル3D生成において、基盤的な復元モデルとビデオ拡散モデルの強力な事前知識を統合する手法Gen3Rを提案する。VGGT復元モデルを再活用し、そのトークンにアダプタを学習させることで幾何学的潜在変数を生成する。これらは、事前学習済みビデオ拡散モデルの外観潜在変数と整合するよう正則化される。これらの分離されながらも整合された潜在変数を共同生成することにより、Gen3RはRGBビデオと、カメラポーズ、深度マップ、大域的点群を含む対応する3Dジオメトリの両方を生成する。実験により、本手法が単一・複数画像条件付き3Dシーン生成において最先端の結果を達成することを示す。さらに、生成的な事前知識を活用することで復元のロバスト性を向上でき、復元モデルと生成モデルの緊密な結合が相互に有益であることを実証する。