翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)はソースコード理解において顕著な成功を収めているが、ソフトウェアシステムの規模が拡大するにつれて、計算効率が重大なボトルネックとなっている。現在、これらのモデルはソースコードをトークンの線形シーケンスとして扱うテキストベースのパラダイムに依存しており、これによりコンテキスト長とそれに伴う計算コストが線形的に増加する。マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、ソースコードをレンダリングされた画像として表現することで効率最適化の可能性を開く。意味を損なわずに圧縮が困難なテキストとは異なり、画像モダリティは本質的に圧縮に適している。解像度を調整することで、画像は元のトークンコストの数分の一にスケーリング可能でありながら、視覚認識能力を持つモデルにとって認識可能な状態を維持できる。このアプローチの実現可能性を探るため、我々はコード理解におけるMLLMの有効性について初の体系的研究を実施した。実験結果から以下のことが明らかになった:(1)MLLMは実質的なトークン削減(最大8倍の圧縮)を達成しつつコードを効果的に理解できる;(2)MLLMはシンタックスハイライトなどの視覚的手がかりを効果的に活用し、4倍圧縮下でもコード補完性能を向上させる;(3)クローン検出のようなコード理解タスクは視覚的圧縮に対して驚異的な耐性を示し、一部の圧縮率では生のテキスト入力をわずかに上回る性能さえ発揮する。我々の発見は、コード理解におけるMLLMの可能性と現時点での限界の両方を浮き彫りにしており、画像モダリティによるコード表現への転換が、より効率的な推論への道筋となることを示唆している。
言語エージェントは、タスク自動化において大きな可能性を示しています。この可能性を、より複雑で長期にわたるタスクに対して実現するために、マルチターンでの課題解決を目的とした「サブエージェントをツールとして活用する」パラダイムの台頭が進んでいます。しかし、既存の設計では、サブエージェントに対する動的な抽象化ビューが依然として欠如しており、適応性を損なう要因となっています。我々はこの課題に対処するため、任意のエージェントを(指示、コンテキスト、ツール、モデル)のタプルとしてモデル化する、統一されたフレームワーク非依存のエージェント抽象化を提案します。このタプルは能力の合成的なレシピとして機能し、システムが各タスクに応じて専門的な実行器をオンデマンドで生成することを可能にします。この抽象化に基づき、我々はエージェントシステム「AOrchestra」を導入します。このシステムでは、中央のオーケストレーターが各ステップでこのタプルを具体化します。つまり、タスクに関連するコンテキストを精選し、ツールとモデルを選択し、動的な自動エージェント生成を通じて実行を委任します。このような設計により、人的なエンジニアリング作業の削減が可能となり、多様なエージェントをタスク実行器としてプラグアンドプレイでサポートする、フレームワーク非依存の性質を維持します。さらに、制御可能な性能とコストのトレードオフを実現し、システムがパレート効率的な状態に近づくことを可能にします。3つの難易度の高いベンチマーク(GAIA、SWE-Bench、Terminal-Bench)において、AOrchestraはGemini-3-Flashと組み合わせることで、最強のベースラインに対して16.28%の相対的改善を達成しました。コードは以下で公開されています:https://github.com/FoundationAgents/AOrchestra
本研究は、Chain-of-Thought(CoT)のダイナミクスに関する先行研究の相補的観察に端を発する。大規模言語モデル(LLM)には、CoTが顕在化する以前に後続の推論計画が潜在的に形成されていることが示されており、これが明示的なCoTの重要性を相対化する一方、多段階推論を要する課題ではCoTの重要性が維持される。我々はLLMの内部状態と言語化された推論軌跡の関係性を深く理解するため、多様なタスク領域における隠れ状態にTele-Lensと呼ばれるプロービング手法を適用し、LLMの潜在計画能力を検証した。実験結果から、LLMは近視眼的な計画視野を持ち、精密な大域計画ではなく主に逐次的な状態遷移を行っていることが明らかとなった。この特性を活用し、我々はCoTの不確実性推定を強化する仮説を提案。CoT経路全体の不確実性が、ごく一部の重要位置において効果的に表現可能であることを実証した。さらにCoTダイナミクスの活用意義を強調し、性能劣化なしにCoTバイパスの自動認識が可能であることを示す。コード・データ・モデルはhttps://github.com/lxucs/tele-lensで公開している。
AI研究の自動化は、計算コストが高い評価(例:モデル学習)と不透明な性能帰属のため、一般的なソフトウェア工学とは異なる。現在のLLMベースのエージェントは、実行コストや因果関係を無視した単一スクリプトを生成しがちで、この点で課題がある。本論文では、自律的なAI研究に最適化されたフレームワークMARS(Modular Agent with Reflective Search)を提案する。MARSは以下の3つの柱に依存する:(1)コスト制約付きモンテカルロ木探索(MCTS)による「予算考慮型計画」で、性能と実行コストのバランスを明示的に調整;(2)複雑な研究リポジトリを管理する「設計-分解-実装」パイプラインを採用した「モジュラー構築」;(3)解決策の差異分析を通じて高信頼性の知見を抽出し、信用割当問題に対処する「比較反射メモリ」。MARSは、同等設定下でのMLE-Benchにおいてオープンソースフレームワーク中最も優れた性能を達成し、グローバルリーダーボードのトップ手法と競合する水準を維持した。さらに、システムは質的な「発見的瞬間」を示し、全活用知見の63%が異なる探索経路間での転移に由来することから、エージェントが探索経路を超えて知見を効果的に一般化できていることが実証された。
大規模言語モデル(LLM)は短期的タスクでは優れた性能を発揮するものの、長期的なエージェントワークフローへの拡張は依然として課題である。中核的なボトルネックは、真正の長距離依存構造と段階間の進化的ダイナミクスを捉えた学習データの不足にある。既存の合成手法は、モデル分布に制約された単一機能シナリオに閉じこもるか、あるいは許容不能な人的アノテーションコストが発生し、拡張性のある高品質な教師信号を提供できていない。我々はこの問題を、実世界のソフトウェア進化のレンズを通じてデータ合成を再概念化することで解決する。鍵となる洞察は、プルリクエスト(PR)連鎖が自然に長期的学習のための教師信号を具現化している点である。PR連鎖は複雑な目標を検証可能な提交単位に分解し、反復を跨いだ機能的一貫性を維持し、バグ修正履歴を通じて真正の改良パターンを符号化する。これを基盤として、我々はdaVinci-Agencyを提案する。これはPR連鎖から構造化された教師信号を、3つの連動メカニズムを通じて体系的に抽出する:(1)継続的コミットによる漸進的タスク分解、(2)統一された機能目標に基づく長期的整合性強制、(3)真正のバグ修正軌跡からの検証可能な改良。各ステップを独立に扱う合成軌跡とは異なり、daVinci-AgencyのPRに根差した構造は、持続的な目標指向行動を教えるために不可欠な因果的依存関係と反復的改良を本質的に保持し、プロジェクトレベルでの完全循環型タスクモデリングとの自然な整合を可能にする。生成される軌跡は大規模(平均85kトークン、116ツール呼び出し)でありながら、顕著なデータ効率を実現:GLM-4.6を239のdaVinci-Agencyサンプルでファインチューニングすると、ベンチマーク全体で広範な改善が得られ、特にToolathlonで47%の相対向上を達成。ベンチマーク性能を超えて、我々の分析は…
ビデオ生成における既存の人体動作制御手法は、一般的に2Dポーズまたは明示的な3Dパラメトリックモデル(例:SMPL)を制御信号として利用している。しかし、2Dポーズは動作を駆動視点に厳密に拘束するため、新規視点合成が不可能となる。明示的3Dモデルは構造的な情報を提供するものの、深度曖昧性や不正確な動力学といった本質的な不正確さを抱えており、強力な制約として使用されると大規模ビデオ生成器が本来備える強力な3D認識能力を上書きしてしまう。本研究では、3D認識の観点から動作制御を再考し、外部再構築された制約に依存するのではなく、生成器の空間的事前知識と自然に整合する暗黙的で視点非依存の動作表現を提唱する。我々は3DiMoを提案し、事前学習済みビデオ生成器と動作エンコーダを共同学習することで、駆動フレームをコンパクトな視点非依存のモーショントークンに蒸留し、クロスアテンションを介して意味的に注入する。3D認識を促進するため、視点豊富な監督(単一視点、多視点、移動カメラのビデオ)で学習し、多様な視点間での動作一貫性を強制する。さらに、SMPLを初期化段階でのみ利用しゼロに減衰させる補助幾何学監督を用いることで、モデルが外部3Dガイダンスから、データと生成器の事前知識から真の3D空間動作理解を学習する段階へ移行できるようにする。実験により、3DiMoが駆動動作を忠実に再現しつつ柔軟なテキスト駆動カメラ制御を実現し、動作忠実度と視覚的品質の両方で既存手法を大幅に上回ることを確認した。
世界モデルは、物理ダイナミクスと世界知識を大規模モデルに組み込むことでその能力を強化する、AI研究における重要なフロンティアとして台頭してきた。中核的な目的は、エージェントが複雑な環境を理解・予測・相互作用できるようにすることである。しかし、現在の研究状況は断片的であり、視覚予測や3D推定、記号接地といった個別タスクへの世界知識の注入に主眼が置かれ、統一的な定義や枠組みの確立には至っていない。こうしたタスク特化型の統合は性能向上をもたらすものの、包括的な世界理解に必要な体系的一貫性を欠くことが多い。本論文では、このような断片的アプローチの限界を分析し、世界モデルの統一設計仕様を提案する。堅牢な世界モデルは能力の寄せ集めではなく、相互作用・知覚・記号推論・空間表現を統合的に包含する規範的枠組みであるべきだと論じる。本研究は、より汎用的で堅牢かつ原理的な世界モデルへ向けた将来研究を導く構造化された視座を提供することを目指す。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデルの推論能力を向上させる重要な手法として登場した。しかし、Group Relative Policy Optimization(GRPO)のような標準的なフレームワークでは、均一なロールアウト予算が採用されることが一般的であり、リソース効率の低下を招いている。さらに、既存の適応的手法はタスク合格率などのインスタンスレベルの指標に依存することが多く、モデルの動的な学習状態を捉えられないという課題がある。これらの制限に対処するため、本論文ではモデルの進化する能力に基づいてロールアウト予算を適応的に配分する強化学習アルゴリズムCoBA-RLを提案する。具体的には、CoBA-RLは能力指向価値関数を用いてタスクを潜在的な訓練利益にマッピングし、ヒープベースの貪欲戦略によって高訓練価値のサンプルへ計算リソースを効率的に自己調整する。大規模な実験により、本手法が探索と利用のトレードオフを効果的に調整し、複数の難易度の高いベンチマークで一貫した汎化性能の向上をもたらすことを実証した。これらの知見は、サンプルの訓練価値を定量化し予算配分を最適化することが、大規模言語モデルの学習後効率を革新する上で極めて重要であることを示唆している。
分布マッチング蒸留(DMD)は、多段階の生成器をその少段階対応モデルに整合させることで、低推論コスト条件下での高品質な生成を実現する。しかしDMDは、その逆KL定式化が本質的にモード追従行動を促進するため、モード崩壊に陥りやすい傾向がある。既存の対策は通常、知覚的または敵対的正則化に依存しており、それ故に多大な計算コストと訓練の不安定性を招いている。本研究では、蒸留段階の役割を明示的に分離する役割分離型蒸留フレームワークを提案する:最初の段階はターゲット予測(例:v-prediction)目標関数によるサンプル多様性の維持に専念し、後続段階は標準DMD損失の下での品質向上に焦点を当てる。この際、DMD目標関数からの勾配は最初の段階でブロックされる。我々はこの手法を多様性保存型DMD(DP-DMD)と称する。本手法は、その簡潔さ(知覚的バックボーンなし、識別器なし、補助ネットワークなし、追加の正解画像なし)にも関わらず、大規模なテキストから画像への実験において、サンプル多様性を保持しつつ、最新手法と同等の視覚的品質を維持する。
大規模言語モデル(LLM)の近年の進歩により、ソフトウェア工学エージェントが複雑なコード修正タスクに取り組むことが可能となった。既存の手法の多くは、コンテナ化環境からの実行フィードバックに依存しており、依存関係が完全に整った環境構築とプログラム・テストの物理的な実行を必要とする。このパラダイムは有効ではあるものの、リソース集約的で維持管理が難しく、エージェントの訓練を大幅に複雑化し、スケーラビリティを制限している。本研究では、物理的な実行環境を学習済みサロゲートモデルに置き換えてソフトウェア工学エージェントを訓練・評価する、Docker不要のフレームワーク「SWE-World」を提案する。SWE-Worldは、実エージェントと環境のインタラクションデータで訓練したLLMベースのモデルを活用し、中間的な実行結果と最終的なテストフィードバックを予測することで、エージェントが物理的なコンテナ化環境と対話することなく学習することを可能にする。この設計は標準的なエージェント-環境インタラクションループを維持しつつ、エージェントの最適化と評価におけるコストの高い環境構築・維持管理の必要性を排除する。さらに、SWE-Worldは実際の提出を伴わずに候補軌道の最終評価結果をシミュレートできるため、複数のテスト時試行の中から最良の解を選択することが可能となり、ソフトウェア工学タスクにおける効果的なテスト時スケーリング(TTS)を促進する。SWE-bench Verifiedでの実験により、SWE-WorldがQwen2.5-Coder-32Bの性能を、Docker不要のSFTで6.2%から52.0%に、Docker不要の強化学習で55.0%に、さらにTTSの適用で68.2%に向上させることが実証された。コードはhttps://github.com/RUCAIBox/SWE-World で公開されている。
本技術報告では、効果的なソフトウェアエンジニアリングエージェントを構築するための、オープンソースかつ完全に再現可能な学習後フレームワークであるSWE-Masterを提案する。SWE-Masterは、教師軌道合成とデータキュレーション、長期的な教師ありファインチューニング、実実行フィードバックを用いた強化学習、推論フレームワーク設計を含む、エージェント開発パイプライン全体を体系的に探求する。初期のSWE能力が限られたオープンソースのベースモデルから出発し、SWE-Masterは体系的な最適化手法が強力な長期的SWEタスク解決能力を引き出す方法を示す。現実的なソフトウェアエンジニアリングタスクの標準ベンチマークであるSWE-bench VerifiedにおいてSWE-Masterを評価した。同一の実験設定下で、本アプローチはQwen2.5-Coder-32Bを用いて61.4%の解決率を達成し、既存のオープンソースベースラインを大幅に上回った。さらに、LLMベースの環境フィードバックを用いたテスト時スケーリングを組み込むことで、SWE-MasterはTTS@8において70.8%に達し、強力な性能ポテンシャルを示した。SWE-Masterは、ソフトウェアエンジニアリングエージェントに関する再現可能な研究を推進するための実用的で透明性の高い基盤を提供する。コードはhttps://github.com/RUCAIBox/SWE-Master で公開されている。
現在、DeepResearchによって生成されるレポートの学習と評価は、検証可能な報酬信号が不足しているため、依然として困難な課題である。このため、ルーブリックに基づく評価が一般的な手法となっている。しかし、既存のアプローチは、十分な細分化がなされていない大まかな事前定義ルーブリックに依存するか、あるいはコストがかかり拡張が困難な手動構築のクエリ特定ルーブリックに依存している。本論文では、DeepResearchのレポート生成に特化した、人間の選好に沿ったクエリ特定ルーブリック生成器を訓練するパイプラインを提案する。まず、人間によるレポートペアへの選好が注釈されたDeepResearch形式のクエリデータセットを構築し、人間の選好監督とLLMベースのルーブリック評価を組み合わせたハイブリッド報酬を用いた強化学習によりルーブリック生成器を訓練する。さらに、長期的な推論をより適切に扱うために、レポート生成のためのマルチエージェントマルコフ状態(MaMs)ワークフローを導入する。実験により、提案するルーブリック生成器が、既存のルーブリック設計戦略よりも識別力が高く、人間の選好により良く沿った監督を提供することを示す。さらに、MaMs訓練フレームワークに統合された場合、本ルーブリック生成器を備えたDeepResearchシステムは、DeepResearch Benchにおいて全てのオープンソースベースラインを一貫して上回り、主要なクローズドソースモデルに匹敵する性能を達成する。
並列思考は有望な推論パラダイムとして登場したが、大きな計算負荷を課すという課題がある。既存の効率化手法は主に局所的で軌道単位の信号に依存しており、並列分岐間の大域的動態を活用する原理的なメカニズムを欠いている。本論文では、2Dプロービングを提案する。これは全ての分岐から定期的に中間回答を抽出することで、並列思考の「幅-深さ」動態を可視化するインターフェースである。分析により、三つの重要な知見が明らかになった:幅-深さの配分における非単調なスケーリング特性、異種混合的な推論分岐長、そして大域的合意の早期安定化である。これらの知見に基づき、訓練を必要とせず、オンラインでの並列思考を最適化するコントローラであるParallel-Probeを提案する。Parallel-Probeは、合意に基づく早期打ち切りにより推論の深さを制御し、偏差に基づく分岐刈り込みにより動的に幅を調整する。3つのベンチマークと複数モデルによる大規模な実験により、Parallel-Probeがテスト時のスケーリングにおいて優れたパレートフロンティアを確立することを実証した。標準的な多数決ベースラインと比較して、競合する精度を維持しつつ、逐次トークン数を最大35.8%、総トークンコストを25.8%以上削減することに成功した。
近年、マルチモーダル報酬モデル(RM)の進展により、視覚的生成技術は著しく発展してきた。既存のフレームワークは、Bradley-Terry スタイルの選好モデリングを採用するか、生成的 VLM を評価器として活用し、強化学習を通じて視覚生成モデルを最適化するのが一般的である。しかし、現在の RM には固有の限界がある。それらは画一的な選好分布を仮定する、あるいは固定された評価基準に依存する「万能型」パラダイムに陥りがちである。その結果、コンテンツ固有の視覚的手がかりに鈍感となり、主観的かつ文脈依存的な人間の選好との体系的な不一致を引き起こす。この問題に対処するため、我々は人間の評価プロセスにヒントを得て、報酬モデリングと柔軟で文脈適応的な推論を結合した、視覚生成のための統一的な個人化報酬モデル UnifiedReward-Flex を提案する。具体的には、プロンプトと生成された視覚コンテンツが与えられた際、まず意味的意図を解釈し視覚的証拠に基づいてグラウンディングを行った後、事前定義された高次元と自己生成された高次元の下で、細粒度の評価基準をインスタンス化することにより、階層的な評価を動的に構築する。学習パイプラインは2段階からなる:(1) まず、高度なクローズドソース VLM から構造化された高品質な推論トレースを知識蒸留し、SFT をブートストラップすることで、モデルに柔軟で文脈適応的な推論挙動を付与する。(2) 続いて、注意深く選別された選好ペアに対して直接選好最適化(DPO)を実施し、推論の忠実性と識別的なアライメントをさらに強化する。有効性を検証するため、UnifiedReward-Flex を画像および動画合成のための GRPO フレームワークに統合し、広範な実験結果を通じてその優位性を実証する。
リランキングは現代の検索システムにおける重要な構成要素であり、通常、効率的な第一段階の検索器と、結果を精密化するための表現力豊かなモデルを組み合わせる。大規模推論モデルがテキスト中心のリランキングで急速な進展を遂げている一方で、映像検索における推論ベースのリランキングは未開拓の領域である。この課題に対処するため、本論文ではRANKVIDEOを提案する。これは映像検索のための推論ベースのリランキングモデルであり、クエリと映像のペアについて映像コンテンツを活用して明示的に推論し、関連性を評価する。RANKVIDEOは、知覚に基づく教師ありファインチューニングと、ポイントワイズ・ペアワイズ目的関数および教師モデルの信頼度蒸留を組み合わせたリランキング訓練からなる2段階カリキュラムで学習される。さらに、推論を要するクエリ-映像ペアを構築するためのデータ合成パイプラインによって支援されている。大規模ベンチマークMultiVENT 2.0における実験により、RANKVIDEOが2段階フレームワーク内で検索性能を一貫して向上させ、nDCG@10で平均31%の改善をもたらし、テキストのみまたは視覚言語リランキング手法を上回りながら、より効率的であることが実証された。
検証可能な報酬による強化学習(RLVR)は大規模言語モデルの推論能力を向上させてきたが、限定的なロールアウト予算下での非効率的な探索に制約され、複雑なタスクではサンプリングの成功率が低く、訓練が不安定になる問題がある。我々は、多くの探索失敗が問題の難しさ自体ではなく、少数のプロンプトトークンがもたらす干渉に起因することを発見した。この知見に基づき、干渉トークンを特定して除去する前処理を行う「低雑音サンプリングフレームワーク(LENS)」を提案する。LENSは、浄化プロセスで成功したロールアウトを転用し、元の雑音を含むプロンプトに対する方策最適化を指導する。これにより、現実の雑音を含むプロンプト環境下でモデルが干渉を無視することを学習できる。実験結果では、LENSがGRPOを大幅に上回り、高い性能と高速な収束を実現し、平均3.88%の性能向上と1.6倍以上の高速化を達成した。本研究は、ロールアウト効率改善における干渉トークンの除去の重要性を明らかにし、RLVR研究に新たな視点を提供する。
検索インテリジェンスは、Deep Research(深層探索)からWide Research(広域探索)へと進化を遂げつつある。このパラダイムは、複雑な制約条件下で並列的に包括的な情報を検索・統合するために不可欠である。しかし、検索の広さに特化したベンチマークと最適化手法の不足により、この分野の進展は妨げられている。こうした課題に対処するため、我々はデータパイプラインとエージェント最適化の二つの観点からWide Researchを詳細に検討する。まず、多段階の厳密なデータパイプラインを通じて構築された汎用広域情報探索(GBIS)ベンチマーク「WideSeekBench」を構築し、対象情報量、論理的制約、領域の多様性を確保した。次に、タスク要件に基づいて並列サブエージェントを自律的に分岐できる動的な階層型マルチエージェントアーキテクチャ「WideSeek」を提案する。さらに、マルチエージェントの軌跡を線形化し、エンドツーエンドの強化学習(RL)を用いてシステムを最適化する統一訓練フレームワークを設計する。実験結果はWideSeekとマルチエージェントRLの有効性を示し、エージェント数のスケーリングがWide Researchパラダイムを推進する有望な方向性であることを明らかにした。
離散生成モデリングにおいて、2つの主要なパラダイムは異なる能力を示す:Masked Diffusion Language Model(MDLM)は意味理解とゼロショット汎化に優れる一方、Uniform-noise Diffusion Language Model(UDLM)は少数ステップ生成の品質で強みを発揮するが、両次元で均衡した性能を達成するものはない。この問題を解決するため、我々は定常ノイズカーネルによって両パラダイムを橋渡しするXDLMを提案する。XDLMの主な貢献は二つ:(1)MDLMとUDLMを原理的に統一する理論的枠組みを提供し、各パラダイムを特殊ケースとして包含すること、(2)事後確率の代数的簡略化によりメモリボトルネックを緩和することである。実験により、XDLMが理解能力と生成品質のパレートフロンティアを推進することが実証された。定量的には、XDLMはゼロショットテキストベンチマークでUDLMを5.4ポイント上回り、少数ステップ画像生成ではMDLM(FID 80.8)を凌駕する(FID 54.1)。80億パラメータ大規模言語モデルの調整にスケーリングした場合、XDLMは32ステップのみでMBPP 15.0を達成し、ベースライン性能を実質2倍に向上させる。最後に、訓練動態の分析はXDLMの長期的スケーリングにおける優れた可能性を明らかにする。コードはhttps://github.com/MzeroMiko/XDLM で公開されている。
ホモトピー法は、困難な問題を解決するための一般的原理として、ロバスト最適化、大域的最適化、多項式の根の探索、サンプリングなど多様な領域で見られる。これらの問題に対する実用的なソルバーは通常、予測子-修正子(PC)構造に従うが、ステップサイズや反復終了条件において手作りのヒューリスティクスに依存しており、それらはしばしば最適ではなくタスク特化的である。この問題に対処するため、我々はこれらの問題を単一の枠組みに統合し、一般的なニューラルソルバーの設計を可能にする。この統一的な視点に基づき、手作りのヒューリスティクスを自動学習されたポリシーで置き換えるNeural Predictor-Corrector(NPC)を提案する。NPCはポリシー選択を逐次意思決定問題として定式化し、強化学習を活用して効率的な戦略を自動発見する。汎化性をさらに高めるため、一連の問題群に対して一度のオフライン訓練を行い、新しいインスタンスに対して効率的なオンライン推論を可能とする償却化訓練メカニズムを導入する。4つの代表的なホモトピー問題による実験では、本手法が未見のインスタンスに対しても効果的に汎化することを実証した。提案手法は、古典的かつ特化したベースラインを効率性で一貫して上回り、タスク横断的に優れた安定性を示すことで、ホモトピー法を単一のニューラル枠組みに統合する価値を明らかにした。
大規模言語モデルにおける長文脈推論において、注意機構の二次計算複雑性は依然として中核的なボトルネックである。従来の高速化手法は、構造化パターンによる注意マップのスパース化、または特定層でのトークンの恒久的除去のいずれかを採用してきたが、これらは無関係なトークンを保持するか、トークン重要性が層・ヘッド単位で動的に変化するにも関わらず、不可逆的な早期決定に依存する問題があった。本論文では、Token Sparse Attentionを提案する。これは軽量かつ動的なトークンレベルのスパース化機構であり、注意機構処理においてヘッド単位のQ、K、Vを削減されたトークン集合に圧縮し、出力を元の系列に逆変換することで、後続層においてトークン情報を再評価可能にする。さらに、本手法はトークン選択とスパース注意の交差点に新たな設計ポイントを提供する。我々のアプローチはFlash Attentionを含む密な注意機構の実装と完全に互換性があり、既存のスパース注意カーネルとシームレスに組み合わせることが可能である。実験結果では、Token Sparse Attentionが精度と遅延のトレードオフを一貫して改善し、128Kトークンの文脈長において精度劣化1%未満で最大3.23倍の注意機構高速化を達成した。これらの結果は、動的かつ層間で交互に行われるトークンレベルのスパース化が、スケーラブルな長文脈推論における相補的かつ効果的な戦略であることを示唆する。
非専門家ユーザーが複雑なインタラクティブなウェブサイトを開発することを支援することは、LLMを活用したコードエージェントにとって一般的なタスクとなっている。しかし、既存のコードエージェントはフロントエンドのウェブページを生成する傾向があり、派手な視覚効果で実際のフルスタックデータ処理とストレージの欠如を覆い隠している。特に、プロダクションレベルのフルスタックウェブアプリケーションを構築することは、フロントエンドのウェブページを生成するだけよりもはるかに困難であり、データフローの注意深い制御、絶えず更新されるパッケージと依存関係の包括的な理解、コードベース内の不明瞭なバグの正確な特定が要求される。これらの課題に対処するため、我々はFullStack-Agentを提案する。これはフルスタックのエージェント的コーディングのための統一されたエージェントシステムであり、以下の3つの部分で構成される。(1) 強力な計画立案、コード編集、コードベースナビゲーション、バグ特定能力を備えたマルチエージェントフレームワークであるFullStack-Dev。(2) クロールおよび合成されたウェブサイトリポジトリを逆翻訳することで、FullStack-Devの基盤LLMを改善する、革新的なデータスケーリングおよび自己改善手法であるFullStack-Learn。(3) 生成されたウェブサイトのフロントエンド、バックエンド、データベース機能を体系的にテストする包括的なベンチマークであるFullStack-Bench。我々のFullStack-Devは、フロントエンド、バックエンド、データベースのテストケースにおいて、従来の最先端手法をそれぞれ8.7%、38.2%、15.9%上回った。さらに、FullStack-Learnは、自己改善を通じて30Bモデルの性能を3つのテストケースセットでそれぞれ9.7%、9.5%、2.8%向上させ、本手法の有効性を実証している。コードはhttps://github.com/mnluzimu/FullStack-Agent で公開されている。
効果的なデータ混合比率の決定は、大規模言語モデル(LLM)の事前学習における重要な要素であり、モデルは一般的な能力と、数学やコードのような難易度の高いタスクでの習熟度のバランスを取らなければならない。しかし、最適な混合比率の特定は未解決の課題であり、既存のアプローチは信頼性の低い小規模代理実験に依存するか、あるいは法外なコストがかかる大規模な探索を必要とする。この問題に対処するため、我々はモデルマージングを活用して最適なデータ比率を予測する新しいフレームワーク、Decouple Searching from Training Mix(DeMix)を提案する。DeMixは、各サンプリングされた混合比率に対して代理モデルを学習する代わりに、候補データセットで大規模にコンポーネントモデルを学習し、重み付きモデルマージングを通じてデータ混合比率の代理指標を導出する。このパラダイムは探索コストと学習コストを分離し、追加の学習負荷なく無制限のサンプリング混合比率を評価可能とし、より多くの探索試行を通じてより良い混合比率の発見を促進する。大規模な実験により、DeMixが十分性、正確性、効率性のトレードオフを打破し、より低い探索コストでより高いベンチマーク性能を持つ最適な混合比率を獲得できることを実証する。さらに、検証済み混合比率を含む高品質な事前学習データからなる総合的な22Tトークンのデータセット、DeMix Corporaを公開し、オープンな研究を促進する。我々のコードとDeMix Corporaはhttps://github.com/Lucius-lsr/DeMix で利用可能である。
適応型マルチモーダル推論は、視覚言語モデル(VLM)における有望な分野として登場し、効果性と効率性の両方を高めるために、ツール拡張された視覚推論とテキスト推論とを動的に調節することを目指している。しかし、既存の評価は静的な難易度ラベルと単純化された指標に依存しており、モデル能力の違いに相対的な難易度の動的な性質を捉えられていない。その結果、適応的なモード選択と一般的な性能の区別が曖昧になり、詳細なプロセス分析が軽視されている。本論文では、実世界、OCR、GUI、知識、数学の5領域にわたる適応型マルチモーダル推論の包括的ベンチマークであるAdaptMMBenchを提案する。これは直接的な知覚タスクと複雑な推論タスクの両方を包含する。AdaptMMBenchは、マシュー相関係数(MCC)指標を活用し、モデルの能力限界に基づいてタスク難易度を動的に特定することで、異なる推論モードの選択合理性を評価し、このメタ認知能力を分離する。さらに、AdaptMMBenchは、主要ステップの網羅性、ツールの有効性、計算効率にわたる多次元的なプロセス評価を可能にする。我々の評価により、適応的なモード選択はモデル能力に応じてスケールするものの、最終的な精度からは明らかに分離されていることが明らかになった。逆に、主要ステップの網羅性は性能と一致するが、ツールの有効性はモデルアーキテクチャ間で極めて不均一であることが示された。
文化を理解するには、文脈や伝統、暗黙の社会的知識にわたる推論が必要であり、単に断片的な事実を想起するはるかに超えた能力が求められる。しかし、文化に焦点を当てた質問応答(QA)ベンチマークの多くは単一ホップの質問に依存しており、これではモデルが浅い手がかりを利用するだけで、真の文化的推論能力を示さない可能性がある。本研究では、インドネシアの伝統に基づき、英語とインドネシア語の両方で利用可能な、大規模言語モデル(LLM)の文化的理解力を評価する初の大規模多段階QAデータセット「ID-MoCQA」を提案する。単一ホップの文化的質問を、6種類の手がかり(常識的、時間的、地理的など)にわたる多段階推論チェーンへ体系的に変換する新たなフレームワークを提示する。専門家による検証とLLM判定フィルタリングを組み合わせた多段階検証パイプラインにより、高品質な質問-回答ペアを保証する。最先端モデルを用いた評価により、特に微妙な推論を要する課題において、文化的推論能力に重大な課題があることが明らかになった。ID-MoCQAは、LLMの文化的適応性を向上させるための挑戦的かつ不可欠なベンチマークを提供する。
オートリグレッシブ動画世界モデルは、行動を条件として将来の視覚観測を予測する。短期的には効果的であるものの、これらのモデルは長期的な生成において困難に直面することが多い。これは、わずかな予測誤差が時間とともに蓄積するためである。従来手法では、事前学習済み教師モデルの導入や系列レベルの分布マッチングによってこの問題を緩和してきたが、これらは計算コストを増大させ、学習範囲を超えた誤差伝播の防止には至らない。本研究では、LIVE(Long-horizon Interactive Video world modEl)を提案する。LIVEは新規のサイズ一貫性目的関数により誤差蓄積を抑制し、教師ベースの蒸留を不要とする。具体的には、LIVEはまず正解フレームから順方向のロールアウトを実行し、逆生成プロセスを適用して初期状態を再構築する。その後、再構築された終端状態に対して拡散損失を計算し、長期的な誤差伝播に対する明示的な制約を提供する。さらに、様々な手法を包括する統一的な視点を提示し、訓練を安定化させる段階的訓練カリキュラムを導入する。実験により、LIVEが長期的ベンチマークにおいて state-of-the-art 性能を達成し、訓練ロールアウト長を大幅に超えた安定かつ高品質な動画を生成することを実証する。
モダリティ追従は、マルチモーダル大規模言語モデル(MLLM)がユーザーの指示に基づいてマルチモーダル文脈を選択的に利用する能力である。これは実世界での展開における安全性と信頼性を確保する上で基本的な要素となる。しかし、この意思決定プロセスを支配する根本的なメカニズムは未解明のままである。本論文では、情報フローの観点からその動作メカニズムを調査する。我々の知見は、指示トークンがモダリティ調停のための構造的アンカーとして機能することを明らかにする:浅い注意層は非選択的な情報転送を行い、マルチモーダル手がかりを潜在的なバッファとしてこれらのアンカーに経路制御する;モダリティ競合は指示意図に導かれた深い注意層内で解決され、一方MLP層は意味的慣性を示し、逆説的な力として作用する。さらに、我々はこの調停を駆動する疎な専門的注意ヘッドの集合を特定する。因果介入実験により、これらの重要なヘッドのわずか5%を操作するだけで、ブロックによりモダリティ追従率を60%減少させ、または失敗サンプルへの標的的増幅により60%増加させ得ることが実証された。我々の研究は、モデルの透明性に向けた重要な一歩を提供し、MLLMにおけるマルチモーダル情報の調整のための原理的な枠組みを提案する。
マルチLLMエージェントシステムにおける役割分担は、多くの場合マルチLoRAによって実現される。この場合、エージェントは事前学習済みのバックボーンを共有し、軽量なアダプタのみが異なる。基本モデルの重みを共有しているにもかかわらず、各エージェントは同じ長いツール拡張軌跡に対して、それぞれ独立してKVキャッシュを構築・保存するため、メモリと計算の両方で多大なオーバーヘッドが生じる。既存のKVキャッシュ共有手法は、このマルチLoRA設定をほとんど考慮していない。我々は、エージェント間で、キャッシュの差異が主にアダプタの出力によって支配され、共有された事前学習済みバックボーンからの活性化は非常に類似したままであることを観察した。この観察に基づき、我々はLRAgentを提案する。これは、キャッシュを事前学習済み重みに由来する共有基底成分と、LoRA重みに由来するアダプタ依存成分に分解する、マルチLoRAエージェントのためのKVキャッシュ共有フレームワークである。LRAgentは、基底成分を共有し、アダプタ成分をその本質的な低ランク形式で保存することでメモリオーバーヘッドを削減する。さらに、共有-AマルチLoRAアーキテクチャによって可能となる計算オーバーヘッドも、低ランクキャッシュを共有し、他のエージェントによって既に処理されたコンテキストに対する冗長な計算を回避することで削減する。実行時にアダプタの寄与を効率的に再構築するため、我々はFlash-LoRA-Attentionを導入する。これは、低ランクキャッシュをフル次元に具現化することを避けるために注意計算の順序を変更するカーネルである。LRAgentは、エージェント型質問応答ベンチマークにおいて、非共有キャッシュベースラインに近い精度を保ちつつ、完全共有キャッシングに迫るスループットとTime-to-First-Tokenレイテンシを達成する。
検索統合型推論は、言語エージェントが外部ソースを能動的にクエリすることで、静的なパラメトリック知識を超えることを可能にする。しかし、強化学習によるこれらのエージェントの訓練は、マルチスケールの信用割り当て問題によって妨げられている。既存手法は通常、高品質な推論と偶発的な推測を区別できない疎な軌道レベルの報酬に依存しており、冗長または誤解を招く検索行動を引き起こす。この問題に対処するため、我々はSearch-R2を提案する。これは、訓練中に両コンポーネントが共同で最適化される、ターゲットを絞った介入による推論の強化を図る新しいActor-Refiner協調フレームワークである。本アプローチでは、生成プロセスを、初期の推論軌道を生成するActorと、「切断-再生成」メカニズムを通じて選択的に欠陥ステップを診断・修復するMeta-Refinerに分解する。きめ細かい監督を提供するため、結果の正しさと、検索された証拠の情報密度を定量化する密なプロセス報酬を結合したハイブリッド報酬設計を導入する。理論的には、Actor-Refinerの相互作用を平滑化された混合政策として定式化し、選択的修正が強力なベースラインを上回る厳密な性能向上をもたらすことを証明する。様々な一般知識およびマルチホップQAデータセットを用いた広範な実験により、Search-R2がモデル規模を問わず強力なRAGおよびRLベースのベースラインを一貫して上回り、最小限のオーバーヘッドで優れた推論精度を達成することを実証する。
大規模言語モデル(LLM)が精選された訓練データセットから無限に広がる実世界環境へ移行するにつれ、根本的な限界が顕在化している:静的な訓練は継続的に変化する展開環境の変化に追従できない。訓練時と推論時の計算資源をスケールアップすることで静的能力は向上するが、この訓練と展開のギャップを埋めることはできない。我々は、この限界を克服するには新たなスケーリング軸としての「進化」が必要であると主張する。既存の展開時適応手法(パラメトリックなファインチューニングであれ、ヒューリスティックな記憶蓄積であれ)は、失敗を診断し持続的な改善を生み出すための戦略的行動主体性を欠いている。我々の立場は、進化そのものを固定されたパイプラインから自律的な進化主体(エボルバーエージェント)へと昇華させる、主体性を持つ進化(エイジェンティック・エボリューション)がLLM適応の必然的な未来を象徴するというものである。このビジョンを一般化した枠組み「A-Evolve」として具体化し、展開時の改善を永続的なシステム状態に対する意図的かつ目標指向の最適化プロセスとして位置付ける。さらに「進化スケーリング仮説」を提唱する:適応能力は進化に割り当てられる計算資源とともにスケールする。これにより、主体性を持つ進化は実世界における持続的で無限の適応に向けたスケーラブルな道筋として位置付けられる。
WorldVQAは、大規模マルチモーダル言語モデル(MLLM)の原子的な視覚的世界知識を評価するために設計されたベンチマークです。視覚知識の検索と推論が混同されがちな既存の評価とは異なり、WorldVQAはこれらの能力を分離し、「モデルが何を記憶しているか」を厳密に測定します。本ベンチマークは、一般的なヘッドクラスオブジェクトからロングテールの希少種まで、階層化された分類体系にわたる視覚的実体の接地(grounding)と命名という原子的な能力を評価します。WorldVQAが視覚的事実性に対する厳密な試験として機能し、現在および次世代のフロンティアモデルの百科事典的広がりと幻覚(hallucination)発生率を評価する基準を確立することが期待されます。
大規模言語モデル(LLM)を中核とする自律エージェントは、科学発見のプロセスを端から端まで加速することが期待されているが、検証可能な発見能力を厳密に評価する方法は依然として中心的な課題である。既存のベンチマークはジレンマに直面している。すなわち、自動生成された研究成果に対するLLM-as-judge評価に大きく依存するか、科学的洞察力の大まかな代理指標となる、便利だが断片的な性能指標の最適化に留まっているのである。このギャップを埋めるため、我々はFIRE-Bench(Full-cycle Insight Rediscovery Evaluation)を提案する。これは、最近の高影響力な機械学習研究から確立された知見を再発見させることでエージェントを評価するベンチマークである。エージェントには、査読済みの検証された研究から抽出された高次の研究課題のみが与えられ、アイデアの探索、実験の設計、コードの実装、計画の実行、実証データに裏打ちされた結論の導出を自律的に行わなければならない。我々は、gpt-5のような最先端LLMを基盤とする各種エージェントをFIRE-Benchで評価した。結果は、完全なサイクルでの科学研究が現在のエージェントシステムにとって依然として困難であることを示している。最も強力なエージェントでさえ、再発見の成功率は低く(F1スコア<50)、試行間でのばらつきが大きく、実験設計、実行、証拠に基づく推論において繰り返し発生する失敗モードが見られた。FIRE-Benchは、信頼性の高いエージェント駆動型科学発見に向けた進歩を測定するための、厳密で診断的な枠組みを提供する。
オブジェクトと対応するテキスト記述の整合を取ることは、視覚言語理解における基本的な課題であり、現実的な要求です。近年のマルチモーダル埋め込みモデルは画像とテキストの大域的な整合性には優れていますが、画像領域と特定のフレーズ間のきめ細かい整合性にはしばしば課題を抱えています。本研究では、入力画像を個々のオブジェクトに対応する複数の領域埋め込みと大域的な埋め込みに分解する、新しいMLLM埋め込みモデルであるObjEmbedを提案します。本モデルは、視覚的グラウンディング、局所的画像検索、大域的画像検索など、幅広い視覚理解タスクをサポートします。ObjEmbedは以下の3つの主要な特性を有します:(1) オブジェクト指向表現:各領域に対して、意味的マッチングのためのオブジェクト埋め込みと、位置特定の質を予測するIoU埋め込みという、補完的な2つの埋め込みを生成することで、オブジェクトの意味的側面と空間的側面の両方を捉えます。最終的なオブジェクトマッチングスコアは、意味的類似度と予測されたIoUを組み合わせることで、より正確な検索を実現します。(2) 汎用性:領域レベルと画像レベルの両方のタスクをシームレスに処理します。(3) 効率的なエンコーディング:画像内の全てのオブジェクトと画像全体が、単一のフォワードパスで効率的にエンコードされます。18の多様なベンチマークにおける優れた性能は、その強力な意味的識別能力を示しています。
大規模CTスキャンにおけるパンキャンサー(全癌種)スクリーニングは、大容量CTデータ内の多種多様な微小病変を位置特定する難しさから、既存のAI手法にとって依然として課題である。極度の前景(病変)と背景(正常組織)の不均衡は、モデルが病変領域に注目することを著しく阻害し、正常領域への冗長な注目は効率を低下させるだけでなく、偽陽性を増加させる。放射線科医の「一瞥」と「集中」という診断戦略に着想を得て、我々はパンキャンサースクリーニングのためのGlance and Focus強化学習フレームワーク「GF-Screen」を提案する。GF-Screenは、病変領域を位置特定するGlanceモデルと、病変を精密にセグメンテーションするFocusモデルを採用し、Focusモデルのセグメンテーション結果を強化学習(RL)を介してGlanceモデルを報酬付与するために利用する。具体的には、GlanceモデルはCTボリューム全体から一連の部分ボリュームを切り出し、Focusモデルがセグメンテーションすべき病変を含む部分ボリュームを選択することを学習する。この選択操作はセグメンテーション訓練において微分不可能であるため、セグメンテーション結果を用いてGlanceモデルを報酬付与することを提案する。Glanceモデルを最適化するために、グループ内相対比較を用いて高利点の予測を優先し、低利点の予測を棄却する、新規のグループ相対学習パラダイムを導入する。これにより、効率性の向上だけでなく、偽陽性の低減も図られる。この方法により、我々は強化学習の最先端技術をパンキャンサースクリーニングの特定課題に効果的に適用する初の事例を実現した。9種類の病変タイプにわたる16の内部データセットと7つの外部データセットを用いた大規模な実験により、GF-Screenの有効性が実証された。特筆すべきは、GF-ScreenがMICCAI FLARE25パンキャンサーチャレンジの公開検証リーダーボードで首位となり、FLARE24優勝解法を大きな差(DSC +25.6%、NSD +28.2%)で凌駕したことである。
近年、マルチターンコード生成のような実世界タスクにおいて、大規模言語モデル(LLM)を強化学習(RL)で訓練する研究が活発に行われている。オンラインRLはオフラインRLよりも優れた性能を示す傾向があるが、訓練コストの高さと不安定性が普及の障壁となっている。本論文では、マルチターンコード生成が「1ステップ回復可能なマルコフ決定過程」として定式化できるという観察に基づき、オンラインRLとオフラインRLの利点を組み合わせた新手法、Contextual Bandit Learning with Offline Trajectories(COBALT)を提案する。COBALTはまず、参照LLMを用いてコード生成の軌跡を収集し、それを部分軌跡に分割して文脈プロンプトとする。次に、オンラインのバンディット学習中に、LLMは単一ステップのコード生成により各部分軌跡プロンプトを完成させるように訓練される。COBALTは、GRPOとVeRPOに基づく2つのマルチターンオンラインRLベースラインを上回り、R1-Distill 8BおよびQwen3 8Bモデルにおいて、LiveCodeBenchでのPass@1スコアを最大で9.0ポイント、6.2ポイント絶対値で向上させた。さらに、LLMの文脈内報酬ハッキング行動を分析し、摂動を加えた軌跡をCOBALTの訓練に追加することでこの問題を軽減した。総合的に、我々の結果は、マルチターンコード生成のような反復的意思決定タスクにおいてCOBALTが有望な解決策であることを示している。コードとデータはhttps://github.com/OSU-NLP-Group/cobalt で公開している。
視覚言語モデル(VLM)の近年の進歩にもかかわらず、既存のアプローチは、ユーザーの蓄積された視覚-文脈的コンテキストと視覚入力を関連付ける能力を欠いているため、ユーザーの特定の経験に基づいた個人化された応答を生成することにしばしば失敗する。我々はこの課題を新たに「文脈化視覚的個人化」として定式化する。これは、新しい画像を解釈する際に、VLMが個人化された視覚的経験の視覚的認識とテキスト的検索を要求するものである。この問題に対処するため、我々はCoViPを提案する。これは、個人化画像キャプション生成を文脈化視覚的個人化の中核タスクと位置付け、強化学習に基づく事後学習とキャプション拡張生成を通じてこの能力を向上させる統一フレームワークである。さらに、テキスト的なショートカット解決策を明示的に排除し、VLMが真に視覚的コンテキストを活用しているかどうかを検証する診断的評価を導入する。大規模な実験により、既存のオープンソースおよびプロプライエタリなVLMには大きな限界がある一方で、CoViPは個人化画像キャプション生成を改善するだけでなく、下流の個人化タスク全体にわたって総合的な性能向上をもたらすことが実証された。これらの結果は、CoViPが堅牢で一般化可能な文脈化視覚的個人化を実現する上で重要な段階であることを示している。
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、驚くべき能力を発揮している。しかし、その導入は大きな計算コストによって妨げられている。既存の構造化プルーニング手法は、ハードウェア効率に優れるものの、精度の大幅な低下がしばしば生じる。本論文では、この問題は、プレフィル段階とデコード段階の非対称的な役割を見落とした、段階を考慮しないプルーニングアプローチに起因すると論じる。仮想ゲート機構を導入することで行った重要度分析により、深い層は次のトークン予測(デコード)には重要であるが、文脈符号化(プレフィル)にはほぼ冗長であることが明らかになった。この知見を活かし、我々はPrefill-Only Pruning(POP)を提案する。これは、計算負荷の高いプレフィル段階では安全に深い層を省略し、敏感なデコード段階では完全なモデルを維持する、段階を考慮した推論戦略である。段階間の移行を可能にするため、キャッシュの整合性を保つ独立したKey-Value(KV)射影と、最初に生成されるトークンの精度を保証する境界処理戦略を導入する。様々なモダリティにわたるLlama-3.1、Qwen3-VL、Gemma-3を用いた大規模な実験により、POPが既存の構造化プルーニング手法の精度と効率性のトレードオックという限界を克服し、プレフィル遅延を最大1.37倍高速化しつつ、性能低下を最小限に抑えられることが実証された。
グラフィカルユーザインタフェース(GUI)グラウンディングは、自然言語指示を実行可能な画面座標へ変換し、GUIの自動操作を実現することを目的とする。しかし、誤ったグラウンディングは、誤った支払い承認など、取り返しのつかない高コストなアクションを引き起こす可能性があり、モデルの信頼性に対する懸念を生じさせている。本論文では、不確実性を考慮したGUIグラウンディングモデル向けフレームワーク「SafeGround」を提案する。本フレームワークは、テスト前にキャリブレーションを行うことで、リスクを考慮した予測を可能にする。SafeGroundは、分布を考慮した不確実性定量化手法を活用し、任意のモデル出力から得られる確率的サンプルの空間的分散を捉える。その後、キャリブレーション過程を通じて、統計的に保証された偽発見率(FDR)制御を備えたテスト時決定閾値を導出する。我々は、難易度の高いScreenSpot-Proベンチマークにおいて、複数のGUIグラウンディングモデルにSafeGroundを適用した。実験結果から、提案する不確実性指標は、正しい予測と誤った予測を識別するタスクにおいて、既存のベースライン手法を一貫して上回る性能を示した。また、キャリブレーションにより得られた閾値は、厳密なリスク制御を確実に実現し、システムレベルの精度大幅向上の可能性を示唆する。複数のGUIグラウンディングモデルにおいて、SafeGroundはGeminiのみによる推論と比較して、システムレベル精度を最大5.38パーセントポイント向上させた。
大規模言語モデル(LLM)の最近の進展は、科学研究を加速させる新たな道を開いた。日常的なタスクの支援においてモデルの能力が高まる一方で、専門家レベルの新規数学的発見への貢献能力については十分に理解されていない。本稿では、研究者が高度なAIモデル、特にGoogleのGeminiベースのモデル(特にGemini Deep Thinkとその高度な変種)と協力し、理論計算機科学や、経済学、最適化、物理学などの他の分野にわたる未解決問題の解決、予想の反証、新たな証明の生成に成功した事例研究を集めて提示する。これらの経験に基づき、反復的な改良、問題の分解、学際的知識転送など、理論研究における効果的な人間-AI協働のための共通手法を抽出する。我々の成果の大部分はこの対話的・会話型の手法に由来するが、標準的なチャットインターフェースを超える特定の事例も強調する。これには、既存の証明における微妙な欠陥を検出するためにモデルを厳密な敵対的査読者として展開すること、複雑な導出を検証するためにコードを自律的に記述・実行する「ニューロシンボリック」ループにモデルを組み込むことなどが含まれる。これらの事例は総じて、AIが単なる自動化のツールとしてではなく、科学的発見という創造的プロセスにおける汎用的で真のパートナーとしての可能性を浮き彫りにする。
変換ベースのプライバシー保護型顔認識(PPFR)は、攻撃者や悪意のあるサービスプロバイダから顔データを隠蔽しながら個人認証を行うことを目的としている。既存の評価手法では、プライバシー保護性をピクセル単位の再構成耐性として扱い、PSNRやSSIMで測定するのが一般的である。しかし本論文では、この再構成中心の評価観点が不適切であることを示す。我々は、保護されたテンプレートから直接、顔の照合/マッチングおよび再生成を行う個人情報抽出攻撃「FaceLinkGen」を提案する。3つの最新PPFRシステムにおいて、FaceLinkGenは98.5%以上のマッチング精度と96%以上の再生成成功率を達成し、知識ゼロに近い設定でも92%以上のマッチング率と94%以上の再生成率を示した。これらの結果は、PPFR評価で広く用いられているピクセル歪み指標と実践的プライバシー保護の間に構造的乖離が存在することを露呈する。視覚的難読化は、外部侵入者と非信頼サービスプロバイダの両方に対して個人識別情報が広範に曝露された状態を招くのである。
小規模言語モデルは、エージェント型AIにおけるコスト効率の良い有望なアプローチとして注目を集めており、支持者らはエージェントワークフローに十分な能力を有すると主張している。しかし、単純なタスクでは大規模モデルに匹敵する性能を発揮する一方で、タスクの複雑さに応じて性能がどのようにスケールするか、いつ大規模モデルが必要となるか、長期的なワークロードに対して小規模エージェントをどう活用すべきかは不明瞭である。本研究では、深層検索およびコーディングタスクにおいて、小規模エージェントの性能がタスク複雑度に応じてスケールしないことを実証的に示す。さらに、フリーランス市場にヒントを得たエージェントフレームワーク「戦略オークションによるワークロード効率化(SALE)」を提案する。SALEでは、エージェントが簡潔な戦略計画を入札し、体系的コスト価値メカニズムで評価、共有オークションメモリを通じて改善される。これにより、個別のルーターを訓練したり全モデルの実行を完了させたりすることなく、タスク単位のルーティングと継続的な自己改善が可能となる。様々な複雑さの深層検索およびコーディングタスクにおいて、SALEは最大規模エージェントへの依存を53%削減、総コストを35%低減し、最終トレース実行にごく僅かなオーバーヘッドを加えるのみで、最大規模エージェントのpass@1を一貫して上回った。対照的に、タスク記述に依存する従来型ルーターは、最大規模エージェントを下回る性能か、コスト削減に失敗する(あるいはその両方)ことが多く、エージェントワークフローへの不適合性が浮き彫りとなった。これらの結果は、小規模エージェントが複雑なワークロードには不十分である一方、協調的なタスク割り当てとテスト時自己改善を通じて効果的に「スケールアップ」可能であることを示唆する。より広義には、エージェント型AIにおける性能向上は、巨大な単一モデルの開発よりも、異種エージェントを効率的で適応的なエコシステムへ組織化する市場発想の協調メカニズムからもたらされるという、システムレベルの視座を提供する。
本論文では、Transformerの最適化を二次幾何学の観点から再検討し、アーキテクチャ設計、活性化スケール、ヘッセ行列、最大許容学習率の間の直接的な関係を確立する。我々は、構成的に中間活性化スケールを安定化するSimpleNormと呼ぶ単純な正規化手法を提案する。さらに、ネットワーク活性化に関する損失関数のヘッセ行列を解析することにより、SimpleNormがヘッセ行列のスペクトルノルムを大幅に低減し、それによってより大きな安定学習率を可能にすることを理論的に示す。1B、1.4B、7B、8Bパラメータ規模の大規模GPTモデルを用いた広範な実験により、理論的知見を検証する。実証的に、我々のSimpleNormベースのネットワークであるSimpleGPTは、標準的な慣例よりも3~10倍大きな学習率を許容し、一貫して強力な最適化安定性を示し、確立されたベースラインを大幅に上回る性能を達成する。具体的には、7B規模モデルを60Kステップ訓練する場合、SimpleGPTはLLaMA2 with QKNormよりも訓練損失を0.08低減し(損失を2.290から2.208に低下させる)ことが確認された。ソースコードはhttps://github.com/Ocram7/SimpleGPT で公開予定である。
大規模言語モデル(LLM)の登場により、汎用エージェントの技術は根本的な進化を遂げています。しかし、これらのエージェントの評価には、静的な質問応答ベンチマークとは異なる特有の課題が存在します。現在のエージェントベンチマークは、システムプロンプト、ツールセットの構成、環境のダイナミクスといった外的要因に大きく影響を受け、混乱していることが観察されます。既存の評価手法は、断片的で研究者ごとに異なるフレームワークに依存する傾向があり、推論やツール利用のためのプロンプトエンジニアリングが大きく異なるため、性能向上の要因をモデル自体に帰属させることが困難です。さらに、標準化された環境データの不足により、エラーの追跡が不能となり、再現性のない結果が生じています。この標準化の欠如は、当該分野に著しい不公平性と不透明性をもたらしています。我々は、エージェント評価を厳密に発展させるためには、統一された評価フレームワークが不可欠であると提案します。この目的に向けて、我々はエージェント評価の標準化を目指す提案を紹介します。
医用画像セグメンテーションは、タスク特化型モデルから一般化可能なフレームワークへと進化している。近年の研究では、マルチモーダル大規模言語モデル(MLLMs)を自律エージェントとして利用し、検証可能な報酬を用いた強化学習(RLVR)によってSegment Anything Model(SAM)のような専門ツールを統制する手法が提案されている。しかし、これらのアプローチは単一ターンの硬直した相互作用戦略に依存することが多く、学習中のプロセスレベルでの監督が不足しているため、対話型ツールの動的ポテンシャルを十分に活用できず、冗長な動作を招くという課題がある。このギャップを埋めるため、我々は対話的セグメンテーションを多段階の自律的意思決定プロセスとして再定義するMedSAM-Agentを提案する。まず、専門家が監修した軌道生成のためのハイブリッドプロンプト戦略を導入し、モデルが人間らしい意思決定ヒューリスティクスと適応的精密化戦略を内在化できるようにする。さらに、マルチターンのエンドツーエンド結果検証と臨床忠実度を考慮したプロセス報酬設計を統合した2段階トレーニングパイプラインを開発し、相互作用の節約と意思決定の効率化を促進する。6つの医用モダリティと21のデータセットを用いた大規模な実験により、MedSAM-Agentが最先端の性能を達成し、自律的な医療推論とロバストな反復最適化を効果的に統合できることを実証した。コードはhttps://github.com/CUHK-AIM-Group/MedSAM-Agentで公開されている。
臨床脳信号テキスト変換インターフェースは、大規模な訓練記録を提供できない麻痺患者向けに設計されている。事前学習は被験者横断的な統計的事前分布を学習することでデータ効率的な一般化を改善するが、これらの事前分布は文脈に強く依存する。自然発話が数分間にわたって徐々に展開されるのに対し、従来手法の多くは数秒間の文脈のみで事前学習を行う。そこで我々は、サンプルあたり2.5分間のMEG文脈(従来研究の5~300倍、19万1千トークンに相当)で事前学習したモデルMEG-XLを提案し、拡張された神経文脈を捕捉する。脳データからの単語デコーディングタスクでファインチューニングした結果、MEG-XLは少量のデータ(例:50時間に対し1時間)で教師あり学習と同等の性能を達成し、脳信号基盤モデルを上回った。長文脈で事前学習したモデルは、単語デコーディングにより良く転移する表現を学習することがわかった。本研究は、長文脈事前学習が他の手法が不必要に破棄している拡張神経文脈を活用するのに有効であることを示す。コード、モデル重み、説明書はhttps://github.com/neural-processing-lab/MEG-XL で公開されている。
プライバシーに配慮したデータを扱う研究は、常にデータ不足という制約に直面しており、データ規模の拡大による恩恵を受けている他の分野とは対照的である。OpenClawやGemini Agentのような現代のAIエージェントが高度に機微な個人情報への持続的アクセス権を付与されるにつれ、この課題はますます差し迫ったものとなっている。この長年のボトルネックと高まるリスクに取り組むため、我々はPrivasis(プライバシー・オアシス)を提案する。これは、機密性の高い社会データの処理が不可避な分野の研究を拡大・加速させるために設計された、初の100万規模で完全にスクラッチから構築された完全合成データセットであり、豊富で多様な個人情報を含むテキストの広大な貯水池である。既存のデータセットと比較して、140万レコードから成るPrivasisは、品質を保ちつつ桁違いに大規模であり、病歴、法律文書、財務記録、カレンダー、テキストメッセージなど、様々な文書タイプにわたるはるかに優れた多様性を提供し、人種、生年月日、職場など合計5510万の注釈付き属性を含む。我々はPrivasisを活用し、テキストを分解し対象を絞ったサニタイゼーションを適用するパイプラインを用いて、テキストサニタイゼーションのための並列コーパスを構築する。このデータセットで学習したコンパクトなサニタイゼーションモデル(<=40億パラメータ)は、GPT-5やQwen-3 235Bのような大規模言語モデルの最新モデルを凌駕する性能を示した。我々は、プライバシー機微領域およびエージェントに関する将来の研究を加速させるため、データ、モデル、コードの公開を計画している。
大規模言語モデル(LLMs)の推論能力を向上させるには、一般に、強化すべき正解をモデルが生成できる能力、あるいは問題を解けるより強力なモデルの存在に依存している。しかし、多くの難問は現在の最先端モデルにとっても解決困難であり、有効な学習信号の抽出を妨げている。有望な代替策として、高品質な専門家による人間の解答を活用する方法があるが、このデータを単純に模倣しても失敗する。なぜなら、専門家の解答は本質的に分布外であり、通常は教育的意図を持ち、計算モデルではなく人間の読者を想定した暗黙の推論の飛躍を含むからである。さらに、高品質な専門家の解答は高コストであるため、汎化性の高いサンプル効率的な学習手法が求められる。我々は、Distribution Aligned Imitation Learning (DAIL) を提案する。これは2段階の手法であり、まず専門家の解答を詳細な分布内の推論トレースに変換して分布の隔たりを埋め、その後、対照学習目的関数を適用して専門家の洞察と方法論に学習を集中させる。DAILは、1000件未満の高品質な専門家の解答を用いて、Qwen2.5-InstructおよびQwen3モデルにおいて10-25%のpass@k向上を達成し、推論効率を2倍から4倍改善し、ドメイン外汎化を可能にすることを確認した。
高品質なフィードバックは、効果的な人間-AI相互作用にとって不可欠である。これは知識の隔たりを埋め、脱線を修正し、相互作用の最中だけでなくモデル開発全体を通じてシステムの振る舞いを形成する。しかし、その重要性にもかかわらず、AIに対する人間のフィードバックは往々にして頻度が低く、質も低い。この隔たりが、AIとの相互作用における人間のフィードバックの批判的検討を動機づけている。ユーザーが高品質なフィードバックを提供するのを妨げる課題を理解し克服するため、我々は人間と対話エージェント(CA)間のフィードバック動態を検証する二つの研究を実施した。形成的調査では、グライスの公準を通して、ユーザーによる高品質なフィードバックを妨げる4つの「フィードバック障壁」—共通基盤、検証可能性、伝達性、情報量—を特定した。これらの知見に基づき、我々は3つの設計要請を導出し、これらの要請に沿った支援機能を組み込んだシステムが、ユーザーにより高品質なフィードバックを提供可能にしたことを示す。最後に、フィードバック障壁を克服するための大規模言語モデル能力の進歩を求める、広範なAIコミュニティへの行動喚起について詳述する。
物体と言語の関係は、人間とAIの間の意味あるコミュニケーション、および実用的な身体性知能にとって基本的な重要性を持つ。本論文では、HieraNavを提案する。これは、エージェントが自然言語の指示を解釈し、シーン、部屋、領域、インスタンスという4つの意味レベルで目標に到達する、マルチ粒度・オープン語彙の目標ナビゲーションタスクである。この目的のために、現実世界の3D室内スキャンデータに基づき、人間による検証を経た包括的なアノテーションと前述の各レベルにわたるタスクを備えた大規模ベンチマーク、Language as a Map (LangMap) を提示する。LangMapは、領域ラベル、識別的な領域記述、414のオブジェクトカテゴリを網羅する識別的なインスタンス記述、そして18,000以上のナビゲーションタスクを提供する。各目標地点には簡潔な説明と詳細な説明の両方が用意されており、異なる指示スタイルにわたる評価を可能にしている。LangMapは優れたアノテーション品質を実現し、単語数を4分の1に抑えつつ、識別精度においてGOAT-Benchを23.8%上回る。LangMapを用いたゼロショットモデルおよび教師ありモデルの包括的評価により、より豊富な文脈とメモリが成功率を向上させる一方で、ロングテール・小型・文脈依存・遠距離の目標、および複数目標の達成が依然として課題であることが明らかになった。HieraNavとLangMapは、言語駆動型の身体性ナビゲーションの発展に向けた厳密なテストベッドを確立する。プロジェクト: https://bo-miao.github.io/LangMap
大規模言語モデル(LLM)におけるトランスフォーマー構成要素の動作原理を理解することは、人工知能における最近の技術進歩の核心をなすため重要である。本研究では、フィードフォワードモジュール(FFN)の解釈可能性に関連する課題を再検討し、FFNを自己注意機構から分離して、分離されたFFNを文脈非依存のトークンレベルの神経検索メモリとして研究することを可能にするMemoryLLMを提案する。具体的には、入力トークンがFFNパラメータ内のメモリ位置にどのようにアクセスするか、および様々な下流タスクにおけるFFNメモリの重要性を調査する。MemoryLLMは、トークン埋め込みを直接使用して自己注意機構から分離してFFNを訓練することで、文脈非依存のFFNを実現する。このアプローチにより、FFNはトークンレベルのルックアップテーブル(ToL)として事前計算可能となり、VRAMとストレージ間のオンデマンド転送を可能にして推論効率をさらに向上させる。また、従来のトランスフォーマー設計とMemoryLLMの中間に位置するFlex-MemoryLLMを導入する。このアーキテクチャは、文脈非依存のトークンレベル埋め込みでFFNを訓練することによって生じる性能差を埋める役割を果たす。
マルチモーダル推薦システムは通常、ユーザーの行動とアイテムのマルチモーダルデータを統合することで、より正確なユーザーの嗜好を捉える。一方、大規模モデル(LM)の台頭に伴い、マルチモーダル推薦ではその意味理解と文脈推論の強みを活用する機運が高まっている。しかし、LMの表現は本質的に一般的な意味タスク向けに最適化されているのに対し、推薦モデルは疎なユーザー/アイテムの固有識別子(ID)特徴に大きく依存する。既存研究は、大規模モデルと推薦システムの間の根本的な表現の相違を見落としており、その結果、互換性のないマルチモーダル表現と最適とは言えない推薦性能を招いている。この隔たりを埋めるため、我々は理論的に保証されたアライメント能力を提供する、LLM拡張マルチモーダル推薦のための新規かつ簡素なデュアルセマンティックアライメントフレームワーク「RecGOAT」を提案する。RecGOATはまず、グラフ注意ネットワークを用いて、ユーザー/アイテムのLM表現とインタラクション履歴を活用し、アイテム間、ユーザー-アイテム間、ユーザー間の関係をモデル化することで協調セマンティクスを豊かにする。さらに、インスタンスレベルと分布レベルのセマンティックアライメントをそれぞれクロスモーダル対比学習(CMCL)と最適適応トランスポート(OAT)によって達成する、デュアル粒度プログレッシブマルチモーダル-IDアライメントフレームワークを設計する。理論的には、我々のアライメントフレームワークから導出される統合表現が、優れたセマンティック一貫性と包括性を示すことを証明する。3つの公開ベンチマークでの大規模な実験により、我々のRecGOATが最先端の性能を達成し、理論的洞察を実証的に検証した。加えて、大規模オンライン広告プラットフォームへのデプロイメントは、産業推薦シナリオにおけるモデルの有効性と拡張性を確認している。コードはhttps://github.com/6lyc/RecGOAT-LLM4Recで公開されている。
多くの機械学習システムは、同じ予測対象に対して複数の証拠源にアクセスできるが、これらの情報源は入力ごとに信頼性や情報量が異なることが多い。生物音響分類においては、種の同定を音響信号から推論できるだけでなく、位置や季節といった時空間的文脈からも推論可能である。ベイズ推論は証拠の乗法的結合を動機づけるが、実際には較正された生成モデルではなく識別的な予測器のみが利用可能な場合がほとんどである。本論文では、Fusion under INdependent Conditional Hypotheses (FINCH) を提案する。これは、事前学習済みの音響分類器と構造化された時空間予測器を統合する適応的対数線形証拠融合フレームワークである。FINCHは、不確実性と情報量の統計量から文脈情報の信頼性を推定するサンプル単位のゲーティング関数を学習する。結果として得られる融合ファミリーは、音響のみの分類器を特殊ケースとして包含し、文脈的証拠の影響を明示的に制限することで、解釈可能な音響のみのフォールバックを持つリスク抑制仮説クラスを実現する。各種ベンチマークにおいて、FINCHは固定重み融合や音響のみのベースラインを一貫して上回り、文脈情報が単体では弱い場合でも堅牢性と誤りトレードオフを改善した。軽量で解釈可能な証拠ベースのアプローチにより、CBIでは state-of-the-art 性能を達成し、BirdSetの複数のサブセットでは競合あるいは改善された性能を実現した。コードは以下で公開されている:\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{匿名リポジトリ}}
大規模言語モデル(LLM)のキー・バリュー(KV)キャッシュはプレフィックスベースであるため、任意の順序で取得されたコンテキストを処理する際に極めて非効率となる。位置に依存しないキャッシング(PIC)は位置制約なしでのKV再利用を可能にするが、既存手法では精度の大幅な低下が生じやすく、実用化が限られている。この問題を解決するため、我々は広く使われているデコーダのみのLLMにエンコーダを再導入し、PICをサポートするよう明示的に学習させることで、ネイティブなPICを提案する。さらに、既存の推論フレームワークとシームレスに統合するPIC対応キャッシングシステムCOMBを開発した。実験結果では、COMBが初トークンまでの時間(TTFT)を51~94%短縮し、スループットを精度を維持したまま3倍向上させることが示された。さらに、DeepSeek-V2-Lite-Chatを使用した際の品質向上は、COMBが他のタイプのデコーダのみLLMにも適用可能であることを実証している。コードはhttps://github.com/shijuzhao/Comb で公開されている。