翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬を用いた強化学習(RLVR)は、一般にグループサンプリングに基づいてアドバンテージを推定し、方策更新を安定化させる。実際には、計算量の制約から大きなグループサイズは実現不可能であり、学習は既に確率の高い軌道に偏りがちである。小規模なグループでは、混合報酬を含みつつも稀な正解軌道を見逃しがちで、確率質量が一般的な解に集中する。我々は、グループサイズの関数として更新が稀な正解モードを見逃す確率を導出し(非単調な振る舞いを示す)、更新が正解集合内で質量を再分配する仕組みを特徴付け、サンプリングされない正解質量が総正解質量の増加にも関わらず縮小し得ることを明らかにする。この分析に動機づけられ、Focal lossにヒントを得た難易度を考慮したアドバンテージスケーリング係数を提案する。これは高成功率のプロンプトに対する更新を重み付け減衰させる軽量な修正であり、GRPO、DAPO、CISPOなどのグループ相対RLVRアルゴリズムに直接組み込める。Qwen2.5-7Bにおけるドメイン内・ドメイン外ベンチマークで、本手法はpass@256をGRPOで64.1→70.3、DAPOで69.3→72.5、CISPOで73.2→76.8と改善し、pass@1を維持または向上させつつ、グループサイズや計算コストを増加させない。
スパースオートエンコーダ(SAE)は神経表現の解釈における強力なツールであるが、音声分野での応用は未開拓である。本研究では、WhisperとHuBERTの全エンコーダ層にわたってSAEを学習させ、その安定性と解釈可能性について詳細な評価を行うとともに、実用性を実証する。ランダムシードを変更しても50%以上の特徴量が一貫して保持され、再構成品質も維持された。SAEの特徴量は一般的な音響・意味情報に加え、環境音やパラ言語音(笑い声、ささやき声等)といった特定事象を捉え、それらを効果的に分離可能である。概念を消去するために必要な特徴量削除は19-27%に留まった。特徴量操縦により、Whisperの誤った音声検出を70%削減し、WERの悪化は無視できる範囲に抑え、実世界での適用可能性を示した。さらに、SAE特徴量が音声知覚中のヒトの脳波活動と相関することを発見し、人間の神経処理との整合性を示唆する。コードとチェックポイントはhttps://github.com/audiosae/audiosae_demoで公開している。
我々はBaichuan-M3を紹介する。これは医療機能を強化した大規模言語モデルであり、従来の受動的な質疑応答から、能動的で臨床レベルの意思決定支援へとパラダイムシフトを実現するために設計された。オープンエンドの診療場面における既存システムの限界に対処するため、Baichuan-M3は医師の体系的な診療ワークフローを模倣する専門的なトレーニングパイプラインを採用している。主な機能は以下の通りである:(i) あいまいさを解消するための能動的情報収集、(ii) 散在する証拠を一貫した診断に統合する長期推論、(iii) 事実の信頼性を確保する適応的虚構抑制。実証評価により、Baichuan-M3がHealthBench、新たに導入されたHealthBench-HalluおよびScanBenchにおいて最高水準の結果を達成し、臨床問診、助言、安全性においてGPT-5.2を大幅に上回ることを示した。本モデルはhttps://huggingface.co/collections/baichuan-inc/baichuan-m3 で公開されている。
大規模言語モデル(LLM)の急速な進歩は、複雑な環境を自律的に移動可能なエージェントの開発を促進してきた。しかし、既存の評価手法は主に演繹的パラダイムを採用しており、エージェントは明示的に与えられたルールと静的な目標に基づいて限定的な計画範囲内でタスクを実行する。重要なことに、これではエージェントが経験から潜在的な状態遷移法則を自律的に発見するという帰納的必然性が看過されており、これはエージェントの先見性と戦略的一貫性を実現する基盤である。この隔たりを埋めるため、我々は長期的・能動的・帰納的インタラクションに重点を置いた評価基盤「OdysseyArena」を提案する。抽象的状態遷移ダイナミクスを具体的な対話型環境へ変換する4つの基本要素を形式化し、実装する。さらに、標準化されたベンチマークとしてOdysseyArena-Liteを構築し、エージェントの帰納的効率性と長期的発見能力を測定する120のタスク群を提供する。更に発展させたOdysseyArena-Challengeでは、極端に長いインタラクション範囲(例:200ステップ超)におけるエージェントの安定性を厳密に検証する。15以上の先進的LLMを用いた大規模実験により、最先端モデルでさえ帰納的シナリオにおいて能力不足を示すことが明らかとなり、複雑環境における自律的発見を目指す上での重大なボトルネックが特定された。コードとデータはhttps://github.com/xufangzhi/Odyssey-Arenaで公開している。
エントロピーは、大規模言語モデル(LLM)が生成する出力の多様性を測る重要な指標として機能し、その探索能力に関する貴重な知見を提供する。強化学習によるファインチューニング(RFT)における探索と利用のバランスを最適化するため、近年の研究ではエントロピーの監視と調整に注目が集まっているが、このプロセスにおけるエントロピー動態の原理的な理解は未だ十分に探究されていない。本論文では、RFTプロセス中のエントロピー動態を分析する理論的枠組みを構築する。まず単一のロジット更新におけるエントロピー変化を定量化する判別式から出発し、これに基づいてエントロピー変化の一次近似式を導出する。この基礎を発展させ、Group Relative Policy Optimization(GRPO)の更新式への拡張を示す。理論分析から得られた系と知見は、エントロピー制御手法の設計に寄与するとともに、既存研究で提案された様々なエントロピー基準手法を統一的に解釈する視座を提供する。実証実験により分析の主要結論を支持し、導出されたエントロピー判別子クリッピング手法の有効性を実証する。本研究はRFTの学習動態に関する新たな知見をもたらし、LLMファインチューニングにおける探索と利用のバランス最適化に対する理論的基盤と実践的な戦略を提供する。
多様な環境における行動結果をシミュレートできる能力は、汎用エージェントの大規模開発に革命をもたらすでしょう。しかし、特に巧緻性を要するロボティクス課題において、世界の力学をモデル化することは、データカバレッジの限界と行動ラベルの不足により重大な課題となっています。この目標に向けた取り組みとして、私たちは44,000時間のエゴセントリック人間動画から多様なインタラクションと巧緻的な制御を学習する基盤世界モデル「DreamDojo」を提案します。私たちのデータ混合は、日常の多様なシナリオとスキルを網羅した、世界モデル事前学習向けとしては現在最大規模の動画データセットを構成しています。行動ラベルの不足に対処するため、連続潜在行動を統一プロキシ行動として導入し、ラベルなし動画からのインタラクション知識転移を強化しました。小規模なターゲットロボットデータでの事後学習後、DreamDojoは物理法則への深い理解と精密な行動制御性を発揮します。さらに、DreamDojoを10.81 FPSのリアルタイム速度に高速化し、文脈一貫性をさらに向上させる蒸留パイプラインも開発しました。私たちの研究は、生成世界モデルに基づく複数の重要応用(ライブ遠隔操作、方策評価、モデルベース計画立案)を可能にします。複数の困難な分布外ベンチマークにおける体系的な評価は、開放世界の接触豊富な課題をシミュレートする当手法の重要性を実証し、汎用ロボット世界モデルへの道を開くものです。
本論文は、科学者やジャーナリスト向けの音声認識システム「Pisets」を提案する。このシステムは、Whisperモデルに伴う誤認識や幻覚生成を最小化しつつ認識精度を向上させることを目的とした3要素アーキテクチャに基づいている。アーキテクチャは、Wav2Vec2による一次認識、Audio Spectrogram Transformer(AST)による偽陽性フィルタリング、Whisperによる最終音声認識で構成される。カリキュラム学習手法の実装と多様なロシア語音声コーパスの活用により、システムの有効性が大幅に向上した。さらに、高度な不確実性モデリング技術を導入することで、文字起こし品質の更なる改善が図られている。提案手法は、WhisperXや標準的なWhisperモデルと比較して、様々な音響条件下における長時間音声データの堅牢な文字起こしを保証する。PisetsシステムのソースコードはGitHubで公開されている:https://github.com/bond005/pisets。
大規模言語モデル(LLM)の事前学習において、訓練の不安定性は依然として重大な課題であり、しばしば急激な勾配爆発として現れ、多大な計算リソースを浪費する。本研究では、μPによってスケーリングされた5MパラメータのNanoGPTモデルにおける訓練失敗を分析し、崩壊に先行する二つの主要現象を特定する:(1)重み行列の安定ランク(フロベニウスノルムの二乗とスペクトルノルムの二乗の比)の急激な減少、(2)隣接する層のヤコビ行列間の整合性の増大。理論的に、これら二つの条件がネットワークの深さに伴う勾配ノルムの指数関数的増加を引き起こすことを証明する。この不安定性メカニズムを打破するため、安定ランクを回復するために行列符号演算を定期的に適用する新しい最適化手法MSignを提案する。5Mから3Bパラメータにわたるモデルでの実験により、MSignが7.0%未満の計算オーバーヘッドで訓練失敗を効果的に防止することを実証する。
世界の内部モデリング――過去の状態Xと次の状態Yの間の行動Zによる遷移を予測すること――は、LLMとVLMの推論と計画にとって不可欠である。このようなモデルの学習には、通常、コストの高い行動ラベル付き軌跡データが必要となる。我々はSWIRLを提案する。これは行動を潜在変数として扱い、順方向世界モデリング(FWM)P_θ(Y|X,Z)と逆力学モデリング(IDM)Q_φ(Z|X,Y)を交互に更新することで、状態のみの系列から学習する自己改善フレームワークである。SWIRLは2つのフェーズを反復する:(1) 変分情報最大化:FWMを更新し、事前状態が与えられた下で潜在行動との条件付き相互情報量を最大化する次の状態を生成することで、識別可能な一貫性を促進する。(2) ELBO最大化:観測された状態遷移を説明するようにIDMを更新し、実質的に座標上昇法を行う。両モデルは強化学習(具体的にはGRPO)により、対立する凍結モデルの対数確率を報酬信号として用いて訓練される。我々は両更新に対する理論的な学習可能性保証を提供し、LLMとVLMにおけるSWIRLを複数の環境で評価する:単一ターン及び複数ターンのオープンワールド視覚力学環境、および物理・Web・ツール呼び出しのための合成的テキスト環境である。SWIRLは、AURORABenchで16%、ByteMorphで28%、WorldPredictionBenchで16%、StableToolBenchで14%の性能向上を達成した。
推論モデルの最近の進歩は、研究レベルの数学に対する妥当な試みの生成が実現可能になりつつあることを示唆しているが、検証は依然として専門家の貴重な時間を消費するボトルネックとなっている。我々は、意味のある解決策には十分なメソッドレベルの情報が含まれており、関連する問題群に適用された場合、誤った解決策よりも優れた下流性能を発揮すべきであると仮説を立てる。この考えに基づき、我々はConsequence-Based Utilityを提案する。これはオラクルを必要としない評価器であり、各候補を検証可能な関連問題の解決における文脈内範例としての価値をテストすることでスコア付けを行う。本手法は、研究レベル数学問題の独自データセットで評価され、各問題には専門家による解決策1件とLLM生成解決策9件がペアで用意されている。特に、Consequence-Based Utilityは報酬モデル、生成的報酬モデル、LLM judgeを順位付け品質において一貫して上回った。具体的には、GPT-OSS-120BではAcc@1を67.2から76.3へ、AUCを71.4から79.6へ改善し、GPT-OSS-20Bでも同様に大きなAUC向上(69.0から79.2)を示した。さらにLLM judgeと比較して、ソルバー評価器ギャップがより大きく、基盤となるソルバーが解決に失敗することの多いインスタンスにおいても、正解と誤答の分離を強く維持することが観測された。
長文推論モデルは多言語環境において課題に直面している。非英語質問に対しても英語で推論を行う傾向があり、質問言語で推論するよう制約を課すと精度が大幅に低下する。この問題は、多言語質問理解と多言語推論の両方の能力不足に起因する。両問題を解決するため、我々は翻訳を多言語推論に統合する自己改善型フレームワーク「TRIT(Translation-Reasoning Integrated Training)」を提案する。外部フィードバックや追加の多言語データを必要とせず、本手法は多言語質問理解と応答生成を同時に強化する。MMATHデータセットにおいて、本手法は複数のベースラインを平均7ポイント上回り、回答の正確性と言語一貫性の両方を改善した。さらに詳細な分析により、翻訳トレーニングの統合が言語間質問アラインメントを10ポイント以上向上させ、数学的問題と一般領域テキストの両方における翻訳品質を向上させることを明らかにした(FLORES-200では最大8.4 COMETポイントの改善を達成)。
視覚言語モデルの急速な進歩は、GUIエージェントの出現を促進しており、オンラインショッピングから航空券予約に至る複雑なタスクの自動化を通じて、反復的なデジタルワークフローの負担を軽減するという多大な可能性を秘めています。基礎的な能力として、GUIグラウンディングは通常、エンドツーエンドのタスク実行における前提条件として確立されます。これはモデルがテキストやアイコンなどのインターフェース要素を正確に位置特定し、クリックやタイピングといった正確な操作を実行することを可能にします。強力な空間認識能力を既に有するモデル(例:Qwen3-VL)をファインチューニングする従来の研究とは異なり、我々はPOINTS-1.5のような最小限のグラウンディング能力しか持たないベースモデルから始めることで、技術パイプライン全体を習得することを目指します。我々が導入するPOINTS-GUI-G-8Bは、ScreenSpot-Proで59.9、OSWorld-Gで66.0、ScreenSpot-v2で95.7、UI-Visionで49.9というスコアでState-of-the-Artの性能を達成しました。本モデルの成功は、以下の3つの主要因に支えられています:(1) 洗練されたデータエンジニアリング:多様なオープンソースデータセットの形式統一と、高度なデータ拡張、フィルタリング、難易度評価戦略の実施。(2) 改善された学習戦略:知覚精度向上のためのビジョンエンコーダの連続的ファインチューニング、および学習と推論間の解像度一貫性の維持。(3) 検証可能な報酬による強化学習(RL)。RLは伝統的に推論能力の強化に用いられてきましたが、我々はそれが知覚集約型タスクであるGUIグラウンディングの精度を大幅に向上させることを実証します。さらに、GUIグラウンディングは報酬が容易に検証可能かつ高精度であるため、RLに対して自然な利点を提供します。
大規模言語モデル(LLM)のスケーリングに伴い、収束効率の良さから行列ベースの最適化手法(Shampoo、Muon、SOAPなど)への関心が高まっている。しかし、これらの手法はパラメータ全体の更新を必要とするため、Megatronのような分散フレームワークにおけるテンソル分散配置と矛盾する。既存の解決策は最適とは言えず、同期方式では計算の冗長性が問題となり、層単位の分割方式は、効率的な通信プリミティブの幾何学的制約を損なうことなくこの矛盾を解消できない。この課題を解決するため、本研究では論理的な最適化器の割り当てと物理的なパラメータ配置を分離した、統一された非同期で負荷均衡なフレームワーク「Canzona」を提案する。データ並列処理には、原子性を保持しつつ負荷不均衡を解消するα均衡静的分割戦略を導入する。テンソル並列処理には、細分化された更新をバッチ処理し再構築のオーバーヘッドを隠蔽するマイクログループスケジューリングを活用した非同期計算パイプラインを設計する。256GPU環境におけるQwen3モデルファミリー(最大32Bパラメータ)での大規模評価により、本手法が確立された並列アーキテクチャの効率を維持しつつ、エンドツーエンドの反復時間を1.57倍高速化し、最適化ステップのレイテンシをベースライン比5.8倍削減できることを実証した。
検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる上で不可欠なパラダイムとして登場した。しかし、Group Relative Policy Optimization(GRPO)のような標準的な方策最適化手法は、低エントロピー方策に収束しがちであり、深刻なモード崩壊と出力の多様性の低下を引き起こす。本研究ではこの問題をサンプリング確率動態の観点から分析し、標準的な目的関数が最も尤度の高い経路を過度に強化することで、有効な代替推論連鎖が抑制されることを明らかにする。この問題に対処するため、我々は全ての正答間の信頼度水準を均衡化する新規のAdvantage Re-weighting Mechanism(ARM)を提案する。プロンプトのパープレキシティと回答信頼度をアドバンテージ推定に組み込むことで、本手法は報酬信号を動的に再形成し、過剰に信頼された推論経路に対する勾配更新を減衰させるとともに、未探索の正解解へ確率質量を再分配する。実験結果から、本アプローチが精度を維持しつつ生成多様性と応答エントロピーを大幅に向上させ、推論タスクにおける探索と利用の優れたトレードオフを実現することが示された。数学およびコーディングベンチマークにおけるQwen2.5とDeepSeekモデルでの実験結果は、提案手法がエントロピー崩壊を有意に緩和することを実証している。具体的には、Qwen2.5-7Bにおいて、本手法はGRPOをPass@1で5.7%、特にPass@32で13.9%上回り、多様な正しい推論経路を生成する優れた能力を強調している。
大規模推論モデルは、推論時の連鎖的思考(Chain-of-Thought)の規模拡大によって高い性能を達成するが、このパラダイムは二次コストの増大、コンテキスト長の制約、および「中間喪失効果」による推論品質の低下に悩まされている。反復的推論は、中間思考を定期的に要約することでこれらの問題を緩和するが、既存手法は教師あり学習または固定ヒューリスティックに依存し、いつ要約するか、何を保持するか、どのように推論を再開するかが最適化されていない。本論文では、モデル制御の反復境界と明示的要約に基づき、反復的推論軌道全体を最適化するエンドツーエンド強化学習フレームワーク、InftyThink+を提案する。InftyThink+は、教師あり学習によるコールドスタートと軌道レベルの強化学習からなる2段階トレーニング方式を採用し、戦略的要約と継続判断をモデルに学習させる。DeepSeek-R1-Distill-Qwen-1.5Bを用いた実験により、InftyThink+はAIME24において精度を21%向上させ、従来の長い連鎖的思考強化学習を明確に上回るだけでなく、分布外ベンチマークへの一般化性能も高めることを示す。さらに、InftyThink+は推論遅延を大幅に削減し、強化学習のトレーニングを加速させ、性能向上とともに推論効率の改善も実証する。
現行のモバイルGUIエージェントベンチマークは記憶能力の評価を体系的に見落としており、記憶関連タスクはわずか5.2-11.8%に留まり、セッション間学習の評価は皆無である。本論文では、pass@k評価と段階的LLM-as-judge評価を備えた包括的メモリ中心ベンチマーク「MemGUI-Bench」を提案する。主な貢献は以下の通りである:(1) 5アーキテクチャ・11エージェントを分析する体系的な記憶タクソノミー、(2) 89.8%のタスクが時間的・空間的記憶保持を要求する26アプリケーション・128タスク群、(3) Progressive Scrutinyと7段階階層指標からなる自動評価パイプライン「MemGUI-Eval」、(4) 11種の先進エージェントに対する研究課題主導型評価。実験結果から、全評価システムに深刻な記憶欠陥が存在すること、5つの異なる失敗モードを特定し、5つの実践的設計示唆を導出した。コード・ベンチマーク・評価結果を含む全リソースはhttps://lgy0404.github.io/MemGUI-Bench/ で完全オープンソース化し継続的に維持する。
エゴセントリック映像の理解は、具身化知能において極めて重要である。近年のマルチモーダル大規模言語モデル(MLLM)は視覚・聴覚両方の入力を処理可能だが、整合性のあるマルチモーダル情報を伴うテキストラベルの取得が困難なため、MLLMがエゴセントリック映像において両モダリティを統合的に理解できるかは未解明のままであった。この課題に対処するため、我々はエゴセントリック映像向けの音声・視覚ナレーション、質問、回答を自動生成するスケーラブルなデータエンジン「EgoAVU」を提案する。EgoAVUは人間のナレーションをマルチモーダル文脈で拡張し、クロスモーダル相関モデリングを通じて視聴覚ナレーションを生成する。トークンベースの映像フィルタリングとモジュール化されたグラフベースの精選により、データの多様性と品質を両立させる。EgoAVUを活用し、300万サンプルからなる大規模訓練データセット「EgoAVU-Instruct」と、多様なタスクを網羅する手動検証済み評価データ「EgoAVU-Bench」を構築した。EgoAVU-Benchにより、既存MLLMが視覚信号に過度に依存し、音声手がかりを無視あるいは音源と視覚情報の対応付けに失敗するという限界が明らかとなった。EgoAVU-InstructでMLLMをファインチューニングすることでこの課題は効果的に解決され、EgoAVU-Benchにおいて最大113%の性能向上を達成した。この改善効果はEgoTempoやEgoIllusionなどの他ベンチマークにも転移し、最大28%の相対性能向上を実現した。コードは公開予定である。
生成的報酬モデル(GenRM)とLLM裁判官は、誤った理由で正しい判断を生成するという欺瞞的アライメントを示す。これらは結果精度を優先するよう訓練・評価されるため、RLHFにおける一般化能力が損なわれる。我々は、モデルの推論プロセスと人間の判断の整合性を定量化する詳細指標「論理的一貫性(Rationale Consistency)」を提案する。最先端モデルの評価により、結果精度が両面で不十分である一方で、論理的一貫性がモデル間の識別と欺瞞的アライメントの検出に有効であることを明らかにした。この課題を解決するため、論理的一貫性と結果精度を組み合わせたハイブリッド信号をGenRM訓練に導入する。提案手法はRM-Bench(87.1%)とJudgeBench(82%)で最高精度を達成し、結果精度のみのベースラインを平均5%上回った。RLHFにおけるRM適用では、Arena Hard v2による検証で性能向上が確認され、特に創造的作文タスクで7%の改善を達成した。詳細分析により、提案手法が欺瞞的アライメントの罠を回避し、結果精度のみの訓練で観測された論理的一貫性の低下を効果的に逆転させることを確認した。
Mixture-of-Experts(MoE)アーキテクチャは、パラメータ効率を向上させるため、より細かい粒度へと進化している。しかし、既存のMoE設計には、専門家の特化粒度とハードウェア実行効率の間の本質的なトレードオフが存在する。本論文では、専門家の粒度を論理的な極限まで押し進める、システムとアルゴリズムの協調設計フレームワークであるOmniMoEを提案する。OmniMoEは、ベクトルレベルのAtomic Expertを導入し、単一のMoE層内でスケーラブルな経路選択と実行を可能にするとともに、汎用処理のための共有された密なMLP分岐を保持する。この原子的な設計は容量を最大化するが、経路選択の複雑さとメモリアクセスに深刻な課題をもたらす。これらに対処するため、OmniMoEはシステムとアルゴリズムの協調設計を採用する:(i) 大規模なインデックス空間を分解し、経路選択の複雑さをO(N)からO(√N)に削減する直積ルータ(Cartesian Product Router)、(ii) 実行順序を反転させ、散在するメモリ律速のルックアップを効率的な密行列演算に変換するExpert-Centric Schedulingである。7つのベンチマークで検証した結果、OmniMoE(活性化パラメータ17億)は、7つのベンチマーク全体で50.9%のゼロショット精度を達成し、粗粒度(DeepSeekMoEなど)および細粒度(PEERなど)のベースラインを上回った。決定的には、OmniMoEはPEERと比較して推論レイテンシを73msから6.7ms(10.9倍の高速化)に削減し、大規模な細粒度MoEが高速かつ高精度であり得ることを実証した。コードはhttps://github.com/flash-algo/omni-moe で公開している。
人間は多様なモダリティを統合的に活用して周囲環境を包括的に理解するが、既存のオムニビデオモデルは視聴覚理解タスクにおいて依然として大きな課題に直面している。本論文では、複数モダリティ推論を強化する新規フレームワークOmniVideo-R1を提案する。本手法は2つの核心戦略により、モデルが「オムニモーダル手がかりを用いた思考」を実現する:(1)自己教師あり学習パラダイムに基づくクエリ集約的グラウンディング、(2)対照学習パラダイムに基づくモダリティ注意融合。複数ベンチマークによる大規模実験により、OmniVideo-R1が強力なベースラインを一貫して上回ることを実証し、その有効性と頑健な汎化能力を立証する。
大規模言語モデル(LLM)は、幅広いタスクにおいて印象的な結果を達成する驚くべき推論能力を示している。こうした進展にもかかわらず、一見単純な場面でさえも、重大な推論失敗が持続的に生じている。これらの欠点を体系的理解し対処するため、本論文はLLMの推論失敗に特化した初の包括的サーベイを提供する。我々は、推論を身体化型と非身体化型に区別し、後者をさらに非形式的(直感的)推論と形式的(論理的)推論に細分化する新たな分類枠組みを提案する。並行して、推論失敗を補完的な軸に沿って3種類に分類する:下流タスク全般に影響を与えるLLMアーキテクチャ固有の根本的失敗、特定領域で顕在化する応用特異的限界、わずかな変動で性能が不安定になる頑健性問題である。各推論失敗について、明確な定義を示し、既存研究を分析し、根本原因を探求し、緩和策を提示する。断片化された研究努力を統合することで、本サーベイはLLM推論の体系的弱点に関する構造化された視座を提供し、強固で信頼性高く頑健な推論能力構築に向けた貴重な知見と将来研究の指針を与える。さらに、LLM推論失敗に関する研究文献の包括的コレクションをGitHubリポジトリ(https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures)として公開し、本領域への容易な入門経路を提供する。
オープンエンドな自己改善エージェントは、自身の構造設計を自律的に変更し、能力を進化させ、事前定義されたアーキテクチャの限界を超えることで、人間の介入への依存を軽減することができる。本論文では、オープンエンドな自己改善の新たなパラダイムとして、グループ進化エージェント(GEA)を提案する。GEAはエージェントの集団を基本的な進化単位とし、進化過程を通じて集団内での明示的な経験共有と再利用を可能にする。既存の木構造進化を採用するオープンエンド自己進化パラダイムとは異なり、GEAは分離された進化分岐による探索的多様性の非効率な利用という限界を克服する。我々はGEAを困難なコーディングベンチマークで評価し、従来の最先端自己進化手法(SWE-bench Verifiedで71.0% vs. 56.7%、Polyglotで88.3% vs. 68.3%)を大幅に上回り、人間が設計したトップレベルのエージェントフレームワーク(2つのベンチマークでそれぞれ71.8%および52.0%)にも匹敵あるいは凌駕する性能を示した。分析の結果、GEAは初期段階の探索的多様性を持続的かつ長期的な進歩へとより効果的に変換し、同数の進化エージェント数においても強力な性能を達成することが明らかになった。さらに、GEAは異なるコーディングモデル間での一貫した転移性と高い頑健性を示し、フレームワークレベルのバグを平均1.4回の反復で修正した(自己進化手法では5回)。
重みのみの量子化は大規模言語モデル(LLM)の圧縮において重要である。古典的なマグニチュードプルーニングの思想に着想を得て、我々は推論志向のファインチューニングにおける重み更新の大きさが、大規模推論モデル(LRM)の量子化に有用な信号を提供し得るかどうかを検討する。我々は、ファインチューニング中の重み更新量が最小および最大であるものが、中間的な大きさの更新よりも重要であるという仮説を立て、この現象を「両端保護」と名付ける。仮説検証を経て、ファインチューニング信号によるLRMの重み量子化手法であるQuantLRMを提案する。両端を保護するため、重み更新量に対して単純な制約付き二次関数をフィッティングする。チャネルごとの二次関数の平均値と、重み更新がゼロであった回数を乗算することで、活性化や二次情報を用いるよりも効果的なチャネル重要度を算出する。QuantLRMを適用し、様々なファインチューニング済みモデル(教師あり学習、直接選好最適化、強化学習によるファインチューニングを含む)を4つの推論ベンチマーク(AIME-120、FOLIO、時間系列推論、GPQA-Diamond)で量子化した結果、QuantLRMはLRM量子化において一貫した性能向上をもたらし、強化学習ファインチューニングモデルでは平均6.55%の改善を達成した。また、ファインチューニング未実施のLRMに対しても、擬似ファインチューニングを通じて効果的な信号を収集するQuantLRMは、その適用性を大幅に高めている。
大規模言語モデル(LLM)の効率的なデプロイには極端な量子化が必須であり、低ビット効率と性能の間で重大なトレードオフが生じる。残差二値化は、二値(±1)層を積み重ねることでハードウェアに優しい行列積演算不要の推論を実現するが、病的な特徴の共適応に悩まされてきた。本研究では、量子化対応訓練(QAT)において、並列の残差二値パスが冗長な特徴を学習し、誤差補償構造を劣化させ、モデルの表現能力を制限するという重要な故障モードを「経路間適応」と命名して特定する。従来研究は解空間を制限するヒューリスティックな回避策(経路凍結など)に依存していたが、我々はアルゴリズム的に残差階層を強制することで共適応を解決する新しい量子化フレームワーク「RaBiT」を提案する。その核心メカニズムは、単一の共有フル精度重みから各二値パスを順次導出するもので、全てのパスが前のパスの誤差を補正することを保証する。このプロセスは、単なる重み近似ではなく機能保存を優先する堅牢な初期化によって安定化される。RaBiTは2ビットの精度と効率の限界を再定義する:state-of-the-artの性能を達成し、ハードウェア集約的なベクトル量子化(VQ)手法にも匹敵し、RTX 4090上でフル精度モデル比4.49倍の推論高速化を実現する。
大規模言語モデル(LLM)は、非英語言語において性能の低下、文化的適合性の欠如、安全性の堅牢性の不足が見られることが多い。これは一部、事前学習データと人間の嗜好調整データセットの両方において英語が支配的であることに起因する。RLHF(人間のフィードバックからの強化学習)やDPO(直接嗜好最適化)のような訓練手法では人間の嗜好データが必要であるが、英語以外の多くの言語では、このデータが不足しており、かつ大部分が非公開のままである。この格差を解消するため、我々はcompar:IAを紹介する。これはフランス政府内で開発されたオープンソースのデジタル公共サービスであり、主にフランス語を話す一般市民から大規模な人間の嗜好データを収集するように設計されている。このプラットフォームは、ブラインドペアワイズ比較インターフェースを使用し、多様な言語モデルにわたる制約のない実世界のプロンプトとユーザー判断を収集するとともに、参加の障壁を低く保ち、プライバシーを保護する自動フィルタリングを維持する。2026年2月7日現在、compar:IAは60万以上の自由形式プロンプトと25万の嗜好投票を収集しており、データの約89%がフランス語である。我々は、会話、投票、反応という3つの相補的なデータセットをオープンライセンスで公開し、フランス語モデルリーダーボードやユーザーインタラクションパターンを含む初期分析を提示する。フランス語圏を超えて、compar:IAは国際的なデジタル公共財へと進化しており、多言語モデルの訓練、評価、人間-AIインタラクションの研究のための再利用可能なインフラを提供する。
大規模言語モデル(LLM)における多目的アライメントの持続的な失敗モードについて検討する:訓練によって一部の目的関数での性能は向上するが、他の目的関数での性能が低下する現象である。本論文ではこの現象を**目的間干渉**として定式化し、古典的なスカラー化アルゴリズムにおいて初めて体系的な研究を行い、干渉が広範に存在し、強いモデル依存性を示すことを明らかにする。 この現象を説明するため、**局所共分散法則**を導出する。これは、目的関数の報酬がスカラー化されたスコアと正の共分散を示す場合に、一次の範囲でその目的関数が改善することを示す。この分析を現代的なアライメントで用いられるクリップ付き代理目的関数に拡張し、クリッピング下においても穏やかな条件の下で共分散法則が有効であることを示す。この分析に基づき、**共分散対象重み適応法(CTWA)** を提案する。これはプラグアンドプレイ方式の手法であり、目的関数の報酬と訓練信号との間に正の共分散を維持することで、目的間干渉を効果的に緩和する。最後に、これらの局所的改善条件を、Polyak-Łojasiewicz条件に基づく大域的収束解析で補完する。非凸なスカラー化最適化が大域的収束を達成する条件と、目的間干渉が特定のモデルの幾何学的性質にどのように依存するかを明らかにする。
マルチターン脱獄手法は、安全性が調整されたチャットボットに対する現実的な脅威モデルを捉えており、シングルターン攻撃はその特殊なケースに過ぎない。しかし既存の手法は、探索の複雑さと意図の逸脱によって破綻する。我々はSEMAを提案する。これは既存の戦略や外部データに依存せず、マルチターンの攻撃者を訓練する、簡潔かつ効果的なフレームワークである。SEMAは2段階から構成される。事前入力による自己調整は、最小限の接頭辞から自己生成された、拒否を含まず構造化されたマルチターンの敵対的プロンプトに対してファインチューニングを行うことで、実用的なロールアウトを可能にし、後続の学習を安定させる。意図逸脱認識報酬を用いた強化学習は、同じ有害な目的を維持しながら、有効なマルチターンの敵対的プロンプトを引き出すよう攻撃者を訓練する。我々は、意図の整合性、コンプライアンスリスク、詳細度を組み合わせた意図逸脱認識報酬を通じて、マルチターン脱獄における有害意図を固定化する。本手法のオープンループ攻撃体制は、被害者モデルのフィードバックへの依存を回避し、シングルターンとマルチターンの設定を統一し、探索の複雑さを軽減する。複数のデータセット、被害者モデル、脱獄判定器において、本手法は最先端(SOTA)の攻撃成功率(ASR)を達成し、全てのシングルターンベースライン、手動スクリプトおよびテンプレート駆動のマルチターベースライン、ならびに我々の教師ありファインチューニング(SFT)および直接選好最適化(DPO)バリアントを上回った。例えばSEMAは、AdvBenchにおける3つのクローズドソースおよびオープンソースの被害者モデルに対して平均80.1%のASR@1を達成し、SOTAを33.9%上回る。本アプローチはコンパクトで再現性があり、標的を超えて転移可能であるため、大規模言語モデル(LLM)の安全性に対するより強力で現実的なストレステストを提供し、自動レッドチーミングを通じて故障モードを暴露・特定することを可能にする。コードは以下で公開されている:https://github.com/fmmarkmq/SEMA。
強化学習(RL)は、大規模言語モデル(LLM)ベースのAIエージェントを訓練するための主要なパラダイムとして台頭してきた。しかし、既存の中核的RLアルゴリズムは、エージェントを活用するシナリオ、特に多ターン設定において、検証済みの収束保証を欠いており、これが訓練の不安定性や最適方策への収束失敗を引き起こす可能性がある。 本論文では、単一/多ターンシナリオにおいて、方策更新メカニズムとアドバンテージ推定手法の異なる組み合わせが収束性に与える影響を体系的に分析する。我々は、グループ相対アドバンテージ推定(GRAE)を組み合わせたREINFORCEが、割引なし条件下で大域的最適解に収束し得ることを明らかにする一方で、PPOとGRAEの組み合わせはPPOの元来の単調改善性を破壊することを見出した。さらに、主流の中核的RLアルゴリズムは、多ターンシナリオにおいて、批評家(Critic)を不要とすることと収束保証を同時に達成できないことを示す。 この問題を解決するため、我々は多ターン相互作用において収束保証を持つ批評家不要のアプローチ、SeeUPO(Sequence-level Sequential Update Policy Optimization)を提案する。SeeUPOは多ターン相互作用を逐次実行されるマルチエージェント・バンディット問題としてモデル化する。実行順序を逆にしたターン毎の逐次的な方策更新を通じて、後ろ向き帰納法により単調改善性と大域的最適解への収束を保証する。 AppWorldおよびBFCL v4における実験により、SeeUPOが既存の中核的アルゴリズムを大幅に上回ることを実証した:Qwen3-14Bでは43.3%-54.6%、Qwen2.5-14Bでは24.1%-41.9%の相対的向上(ベンチマーク平均)と、優れた訓練安定性を達成した。
大規模言語モデル(LLM)の標準的な学習パイプラインは、通常、事前学習から事後学習へと一方向に進行する。しかし、事後学習から得られた知見が事前学習済み基盤モデルを遡及的に改善する双方向プロセスの可能性は、未だ探求されていない。我々は、強化学習(RL)で調整されたモデルが基盤モデルを強化し、それが次なる事後学習の性能向上につながる、特別に訓練された教師モデルや参照モデルを必要としない、自己強化型のフライホイール(好循環)の確立を目指す。これを実現するため、我々は学習ダイナミクスを分析し、モデル能力の臨界転換点として「中期学習(アニーリング)段階」を特定した。この段階は通常、急減衰する学習率の下で高品質なコーパスを用い、事前学習の終盤に発生する。この知見に基づき、我々はReMiT(強化学習誘導型中期学習)を提案する。具体的には、ReMiTはRL調整モデルが持つ推論に関する事前知識を利用し、中期学習段階においてトークンを動的に再重み付けし、推論に決定的に重要なトークンを優先する。実験では、ReMiTは数学、コード、一般推論にわたる10の事前学習ベンチマークで平均3%の改善を達成し、この改善効果(2%超)を事後学習パイプライン全体を通じて持続させた。これらの結果は、反復的なフィードバックループがLLMの持続的かつ自己強化的な進化を可能にすることを実証する。
統合マルチモーダルモデル(UMM)は、自然画像の生成とマルチモーダル推論において顕著な能力を示している。しかし、我々の生活に密接に関連するコンピュータ利用計画タスクを支援する可能性については、未だ十分に探究されていない。コンピュータ利用タスクにおける画像生成と編集には、空間推論や手順理解などの能力が要求されるが、UMMがこれらのタスクを完了するために必要な能力を有するか否かは明らかではない。そこで本論文では、コンピュータ利用タスクにおける画像生成と編集を評価するための新しいベンチマークであるPlanVizを提案する。評価の目的を達成するため、日常生活で頻繁に関与し計画段階を要するサブタスクに焦点を当てる。具体的には、経路計画、作業図式化、Web・UI表示の3つの新規サブタスクを設計した。データ品質確保の課題に対処するため、人手で注釈付けされた質問と参照画像、および品質管理プロセスを整備した。包括的かつ正確な評価の課題に対しては、タスク適応型スコアであるPlanScoreを提案する。このスコアは、生成画像の正確性、視覚的品質、効率性の理解を支援する。実験を通じて、本トピックに関する将来研究の主要な限界と機会を明らかにする。
Transformerアーキテクチャの滑らかさは、一般化性能、学習安定性、敵対的ロバスト性の文脈で広く研究されてきた。しかし、転移学習におけるその役割は未解明のままである。本論文では、視覚Transformerの構成要素が入力の変化に応じて出力を適応させる能力、すなわち可塑性を分析する。平均変化率として定義される可塑性は、入力摂動に対する感度を捉える。特に、高い可塑性は低い滑らかさを意味する。理論分析と包括的実験を通じて、この視点が適応過程で優先すべき構成要素を選択する際の原理的な指針を提供することを示す。実践的な重要な知見として、注意機構と順伝播層の高い可塑性が、一貫して優れたファインチューニング性能につながることを明らかにする。本知見は、滑らかさが望ましいとする従来の前提とは一線を画し、Transformerの機能的特性に関する新たな視点を提供する。コードはhttps://github.com/ambroiseodt/vit-plasticityで公開されている。
高密度Transformer言語モデルは、これまで一貫したアーキテクチャ形状を維持してきた。すなわち、各層は注意機構モジュールと、拡大率2〜4でほとんどのパラメータをMLPに割り当てた狭-広-狭構造のMLPを持つフィードフォワードネットワーク(FFN)で構成される。近年、残差接続を持つ広-狭-広(砂時計型)MLPが優れた関数近似能力を発揮することが示されたことを受け、本研究ではTransformerの長年続くMLP形状の慣例を見直し、狭-広-狭設計の必要性に疑問を投げかける。これを検証するため、従来のFFNを、残差経路で接続された砂時計型サブMLPのスタックから構成される、より深い砂時計形状のFFNに置き換えたTransformer変種を開発する。我々は、より深層化され軽量な砂時計型FFNが従来型FFNの競合代替となり得ること、また砂時計型FFNの軽量化で節約されたパラメータを(固定予算下でモデルの隠れ次元を拡大するなど)より効果的に活用できることを仮説として提示する。モデル規模を跨いだ実証実験によりこれらを確認した:砂時計型FFNは4億パラメータ規模まで従来型FFNを上回り、10億パラメータ規模でも同等の性能を達成した;FFNパラメータを削減し注意機構のパラメータを増やした砂時計型FFN変種は、同等予算の従来構成に対して一貫した改善を示した。これらの知見は、最近の研究に新たな光を当て、狭-広-狭MLPの慣例と、効率的で表現力の高い現代的な言語モデルを目指す注意機構とFFNのバランスの再考を促すものである。
全スライド画像(WSI)の前処理は、通常、組織検出とパッチ抽出から構成され、AI駆動の計算病理学ワークフローの基盤をなす。既存ツールは、不正確なヒューリスティックなしきい値処理に依存するか、限定的な多様性のデータで学習したパッチレベルで動作するAIベースのアプローチを採用するため、計算量が膨大になり、主要な計算ボトルネックとなっている。本研究では、最小限の計算オーバーヘッドで正確な組織検出と高スループットなパッチ抽出を実現する、効率的かつスケーラブルなスライド前処理フレームワーク「AtlasPatch」を提案する。AtlasPatchの組織検出モジュールは、約3万枚のWSIサムネイルからなる多様性に富み半手動で注釈付けされたデータセットを用い、Segment-Anythingモデルの効率的なファインチューニングによって学習される。本ツールはサムネイルから組織マスクを全解像度スライドに外挿し、ユーザ指定の倍率でパッチ座標を抽出する。パッチを共通の画像エンコーダーに直接ストリーミングして埋め込みを生成するか、パッチ画像として保存するオプションを備え、CPUとGPU全体で効率的に並列化される。セグメンテーション精度、計算量、下流のマルチインスタンス学習において評価した結果、従来手法の計算コストのごく一部で、最先端の性能に匹敵する性能を達成した。AtlasPatchはオープンソースであり、https://github.com/AtlasAnalyticsLab/AtlasPatch で公開されている。
大規模言語モデルはオープンドメイン対話において顕著な能力を発揮している。しかし、現在の手法はノイズの多い低品質な人間の会話データに依存するため、サービス対話では最適な性能を発揮していない。この制約は、データ不足と、本物の目標指向的なユーザー行動を模倣する難しさに起因する。これらの課題に対処するため、我々は大規模な人間の注釈を必要とせずにエージェントが効果的な戦略を学習できるフレームワーク「SEAD(サービス対話のための自己進化エージェント)」を提案する。SEADはユーザーモデリングを二つの要素に分離する:訓練カリキュラムを管理する多様なユーザー状態を生成するプロファイルコントローラーと、現実的な役割演技に焦点を当てたユーザー役割演技モデルである。この設計により、環境が不公平な敵対者として振る舞うのではなく、適応的な訓練シナリオを提供することが保証される。実験により、SEADがオープンソース基盤モデルおよびクローズドソース商用モデルを大幅に上回り、タスク完了率を17.6%、対話効率を11.1%向上させることが実証された。コードは以下で公開されている:https://github.com/Da1yuqin/SEAD
近年の成功にもかかわらず、推論時に必要に応じて動的にトークン予算を拡張する「テストタイムスケーリング」は、視覚言語モデル(VLM)において依然として脆弱である。画像に対する非構造化された連鎖的思考(チェーン・オブ・ソート)は知覚と推論を混在させ、冗長で整理されていない文脈を生み出し、小さな知覚ミスが連鎖的に完全に誤った答えにつながる可能性がある。さらに、優れた性能を達成するには、手作りの報酬を用いた高コストな強化学習が必要とされる。本論文では、視覚的知覚と推論を明示的に分離するモジュール型フレームワークであるSPARC(Separating Perception And Reasoning Circuits)を提案する。脳における連続的な感覚-認知処理にヒントを得て、SPARCは2段階のパイプラインを実装する。まずモデルは明示的な視覚探索を行い質問に関連する領域を特定し、その後、それらの領域を条件として推論を行い最終的な答えを生成する。この分離により、非対称な計算リソース割り当てによる独立したテストタイムスケーリング(例:分布シフト下では知覚処理を優先)、選択的最適化(例:エンドツーエンド性能のボトルネックが知覚段階である場合にその部分のみを改善)、圧縮された文脈への対応(低解像度で大域的な探索を行い、選択された領域にのみ高解像度処理を割り当てることで、視覚トークン総数と計算量を削減)が可能となる。難易度の高い視覚推論ベンチマークにおいて、SPARCは単一のベースラインモデルや強力な視覚的接地アプローチを上回る性能を示した。例えば、SPARCはV^* VQAベンチマークにおいてQwen3VL-4Bの精度を6.7ポイント向上させ、困難なOODタスクでは「画像を用いた思考」アプローチを200分の1のトークン予算で4.6ポイント上回った。
ニューラルネットワークの活性化の分析における既存のアプローチ(PCAやスパースオートエンコーダなど)は、強い構造的仮定に依存している。生成モデルはこれとは異なる選択肢を提供する。つまり、そのような仮定なしに構造を発見でき、介入の忠実度を改善する事前分布として機能するのである。我々はこの方向性を探求するため、10億の残差ストリーム活性化に対して拡散モデルを学習し、ネットワークの内部状態の分布を学習する「メタモデル」を構築した。その結果、拡散損失は計算量に応じて滑らかに減少し、下流任務の有用性を確実に予測することがわかった。特に、メタモデルが学習した事前分布をステアリング介入に適用すると流暢性が向上し、損失が減少するほど改善幅が大きくなった。さらに、メタモデルのニューロンは概念を次第に個々のユニットに分離し、損失の減少に比例してスパースプロービングスコアが向上した。これらの結果は、生成的なメタモデルが制限的な構造的仮定なしに解釈可能性に向けたスケーラブルな道筋を提供することを示唆している。プロジェクトページ: https://generative-latent-prior.github.io。
現在の情報探索(InfoSeeking)エージェントは、長期的な探索において焦点と一貫性を維持するのが困難である。これは、計画手順や大量の探索結果を含む探索状態を、単一の平文コンテキスト内で追跡することが本質的に脆弱であるためだ。この問題に対処するため、我々はTable-as-Search(TaS)を提案する。これは情報探索タスクを表完成タスクとして再定義する構造化計画フレームワークである。TaSは各クエリを外部データベースで管理される構造化テーブルスキーマにマッピングし、行は探索候補を、列は制約や必要な情報を表す。このテーブルは探索状態を精密に管理する。すなわち、入力済みセルは探索履歴と結果を厳密に記録し、空セルは明示的な探索計画として機能する。重要な点として、TaSは「深層探索」「広域探索」、そして困難な「深層広域探索」という3種類の情報探索タスクを統一的に扱う。大規模な実験により、TaSがマルチエージェントフレームワークや商用システムを含む3種類のベンチマークにおいて、数多くの先進的なベースライン手法を大幅に上回ることを実証した。さらに分析により、TaSが長期的情報探索において優れた頑健性と効率性、拡張性、柔軟性を併せ持つことが検証された。コードとデータセットはhttps://github.com/AIDC-AI/Marco-Search-Agent で公開している。
言語に基づくセグメンテーションは、コンピュータビジョンにおける主要な研究トピックである。近年のマルチモーダル大規模言語モデル(MLLM)の進展により、セグメンテーションシステムに推論能力が付与されたが、これらの取り組みはMLLMの固定化された内部知識に制限されており、最新情報やドメイン固有概念を扱う現実世界のシナリオへの応用可能性を妨げている。本研究では、既存手法の知識ボトルネックを克服する新しいセグメンテーション手法であるSeg-ReSearchを提案する。推論と外部検索を交互に行うことで、Seg-ReSearchはMLLMの固定化された知識を超えた動的かつオープンワールドなクエリをセグメンテーションシステムが処理することを可能にする。この能力を効果的に学習させるため、初期ガイダンスと段階的インセンティブを調和させる階層的報酬設計を導入し、疎な結果シグナルと厳格な段階的監督の間のジレンマを緩和する。評価のために、外部知識を明示的に必要とする難易度の高いビデオオブジェクトセグメンテーションベンチマークOK-VOSを構築した。OK-VOSおよび既存の2つの推論セグメンテーションベンチマークにおける実験により、我々のSeg-ReSearchが最先端手法を大幅に改善することを実証した。コードとデータはhttps://github.com/iSEE-Laboratory/Seg-ReSearch で公開予定である。
知識蒸留は、強力な大規模言語モデル(LLM)からより小型で効率的なモデルへ知識を転送する重要な技術として登場した。しかし、従来の蒸留手法は、特に複数の教師モデルを活用する場合、知識の衝突や高いリソース要求といった課題に直面している。本論文では、複数の教師LLMから得られる理論的根拠を単一の根拠に統合し、衝突を緩和して効率を向上させる「知識純化」の概念を提案する。知識純化の有効性を検証するため、我々はさらに多様な視点から5つの純化手法を提案する。実験により、これらの手法が蒸留モデルの性能を向上させるだけでなく、知識の衝突を効果的に軽減することを実証する。さらに、ルーターベースの手法は頑健な汎化能力を示し、革新的な純化技術が複数教師蒸留の最適化と、強力かつ軽量なモデルの実用的な展開を促進する可能性を強調する。
真の自己進化には、エージェントが生涯学習者として振る舞い、新たな経験を内在化して将来の問題を解決することが求められる。しかし、この基礎的な能力を厳密に測定することは、2つの障壁によって妨げられている。1つは事前知識の混在(「新規」知識が事前学習データに含まれている可能性)であり、もう1つは推論の複雑さの混在(失敗が知識の想起不能ではなく問題の難易度に起因する可能性)である。本研究では、NumPyライブラリとそのAPIドキュメントを難読化し、ランダム化された識別子を持つ疑似新規パッケージに変換する診断環境「SE-Bench」を提案する。エージェントはこのパッケージを内在化するように訓練され、ドキュメントにアクセスできない状態で単純なコーディングタスクで評価される。これにより、新しいAPIドキュメントがあればタスクは自明であるが、ベースモデル単体では解決不可能な、クリーンな評価設定が実現する。調査を通じて3つの知見が得られた:(1) 参照ドキュメントを用いた訓練は記憶の定着を阻害する「開かれた教科書のパラドックス」が存在し、知識を重みに圧縮するには「閉じた教科書での訓練」が必須であること、(2) PPOのクリッピングと負の勾配により標準的な強化学習(RL)は新規知識を完全に内在化できない「RLギャップ」が生じること、(3) 自己生成によるノイズの多いタスクでも、RLではなく教師ありファインチューニング(SFT)と組み合わせることで内在化が可能である「自己プレイの有効性」が確認された。総括すると、SE-Benchは知識の内在化を伴う自己進化のための厳密な診断プラットフォームを確立する。コードとデータセットはhttps://github.com/thunlp/SE-Benchで公開している。
微分可能マッチング層と残差接続パラダイムは、エントロピー正則化された最適輸送(OT)を介して実装されることが多く、構造予測とアーキテクチャスケーリングにおける重要なメカニズムとして機能する。しかし、離散的な順列を回復させたり、εを0にアニーリングすることで恒等写像を維持したりすることは、極めて不安定であることが知られている。本研究では、この失敗の根本的なメカニズムである「早期モード崩壊」を特定する。シンクホーンの不動点写像の非正規力学を分析することにより、理論的な熱力学的速度限界を明らかにする:標準的な指数冷却は、推論演算子の収縮率(O(1/ε)として劣化する)を上回ってしまう。この問題に対処するため、推論プロセスの安定性を監視する適応的スケジューリングアルゴリズムである、効率的な区分的ハイブリッド適応安定性制御(EPH-ASC)を提案する。EPH-ASCが、FineWeb-Eduデータセットにおける大規模訓練中に多様体制約付きハイパー接続(mHC)を安定化させ、線形安定則を強制することで後段階の勾配爆発を効果的に防止するために不可欠であることを実証する。
気候災害は、住宅ストックの損傷、インフラの劣化、ネットワークアクセシビリティの低下を通じて、都市交通と緊急対応活動をますます阻害している。本論文は、異種時空間都市データを統合し、建物レベルの気候リスク指標を予測する拡散トランスフォーマーフレームワーク「Skjold-DiT」を提案する。本フレームワークは、インテリジェント車両に関連する交通ネットワーク構造とアクセシビリティ信号(例:緊急到達可能性、避難経路制約)を明示的に組み込む。具体的には、Skjold-DiTは、インテリジェント車両経路計画や緊急配車システムで利用可能な、較正済みで不確実性を考慮したアクセシビリティレイヤー(到達可能性、旅行時間増加率、経路冗長性)を生成することで、災害条件付き経路制約を可能にする。Skjold-DiTは以下を統合する:(1) 都市間転移を支援するように設計されたプロンプト型条件付けインターフェース「Fjell-Prompt」、(2) 災害マップ/画像、建物属性、人口統計データ、交通インフラを共有潜在表現に統合するクロスモーダル注意機構「Norrland-Fusion」、(3) 介入プロンプト下での確率的リスク軌道を生成する反事実シミュレータ「Valkyrie-Forecast」。我々は、6都市にわたる847,392件の建物レベル観測データを含む「Baltic-Caspian Urban Resilience (BCUR)」データセットを導入する。これには、複合災害注釈(洪水・熱指標など)と交通アクセシビリティ特徴量が含まれる。実験では、予測精度、都市間汎化性能、較正、および到達可能性や介入下での災害条件付き旅行時間といった下流の交通関連アウトカムを評価する。
学習後量子化は大規模言語モデルの計算コストを削減するが、集約指標では捉えられない方法で社会的バイアスを根本的に変化させる。本研究では、13のクローズドエンド型およびオープンエンド型バイアスデータセットから構成される統一ベンチマークPostTrainingBiasBenchを用いて、50の量子化モデルを評価する初の大規模調査を実施する。私たちは「量子化誘発型マスクド・バイアス反転」と呼ぶ現象を特定した。これは、集計バイアススコアに変化がなくとも、量子化後に最大21%の応答がバイアス状態と非バイアス状態の間で反転する現象である。これらの反転はモデルの不確実性に強く影響され、不確実性の高い応答は確信度の高い応答に比べて3~11倍変化しやすい。量子化強度はこの効果を増幅し、4ビット量子化モデルは8ビット量子化モデルより4~6倍多くの動作変化を示す。深刻なことに、これらの変化は人口統計グループ間で非対称的な影響を生み出し、一部のグループではバイアスが最大18.6%悪化する一方、他のグループでは14.1%改善するため、誤解を招く中立的な集計結果が生じる。大規模モデルにも一貫した頑健性の優位性は見られず、グループ特有の変化はモデルファミリー間で予測不可能に変動する。私たちの発見は、圧縮がバイアスパターンを根本的に変化させるため、実用上の信頼性を確保するには量子化後の評価と介入が不可欠であることを示している。