翻訳付きの日次キュレーションされたAI研究論文
我々は、フロンティアレベルのエージェント知能と計算効率を両立するスパース混合専門家(MoE)モデル「Step 3.5 Flash」を提案する。本モデルは、エージェント構築において最も重要な要素である鋭い推論能力と高速かつ信頼性の高い実行に焦点を当てている。Step 3.5 Flashは、1960億パラメータの基盤モデルと推論時に活性化される110億パラメータを組み合わせることで効率的な推論を実現。マルチラウンドのエージェント相互作用における遅延とコストを削減するため、3:1のスライディングウィンドウ/フルアテンションの交互配置とマルチトークン予測(MTP-3)を最適化している。 フロンティアレベルの知能を達成するため、検証可能な信号と選好フィードバックを組み合わせたスケーラブルな強化学習フレームワークを設計。大規模オフポリシー学習下でも安定性を保ちながら、数学・コード・ツール使用における一貫した自己改善を可能にしている。Step 3.5 Flashはエージェントタスク・コーディング・数学タスクで強力な性能を発揮し、IMO-AnswerBenchで85.4%、LiveCodeBench-v6(2024.08-2025.05)で86.4%、tau2-Benchで88.2%、BrowseComp(コンテキスト管理付き)で69.0%、Terminal-Bench 2.0で51.0%を達成。GPT-5.2 xHighやGemini 3.0 Proなどのフロンティアモデルに匹敵する性能を示す。 効率フロンティアを再定義するStep 3.5 Flashは、現実の産業環境において高度なエージェントを展開するための高密度な基盤を提供する。
近年、生成型マルチモーダル大規模言語モデル(MLLM)を視覚タスク向けの埋め込み抽出器として適応させる研究が進められており、通常は普遍的な表現を生成するためのファインチューニングを通じて実現されている。しかし、動画タスクにおけるその性能は、動画基盤モデル(VFM)に劣っている。本論文では、動画-テキストの埋め込みと検索にMLLMを活用することに焦点を当てる。まず体系的なレイヤーごとの分析を行い、中間層(事前学習済み)のMLLMが既に相当量のタスク関連情報を符号化していることを示す。この知見を活かし、中間層の埋め込みを較正されたMLLMヘッドと組み合わせることで、一切の訓練なしに強力なゼロショット検索性能が得られることを実証する。これらの発見に基づき、高密度な動画キャプションを短い要約にマッピングする軽量なテキストベースのアライメント手法を提案する。これにより、視覚的な教師信号なしでタスク関連の動画-テキスト埋め込み学習を可能にする。注目すべきは、テキスト以外のファインチューニングを一切行わなくても、本手法が既存手法をしばしば大幅に上回り、一般的な動画検索ベンチマークで state-of-the-art の結果を達成することである。
統合マルチモーダルモデル(UMM)は、視覚的生成において顕著な進歩を示している。しかし、既存のベンチマークは主に、蓄積された知識と学習されたスキーマに依存する「結晶性知能」を評価するものに偏っている。この偏りは、「生成的流動性知能(GFI)」、すなわち、パターンを帰納し、制約を通じて推論し、その場で新しいシナリオに適応する能力を見落としている。この能力を厳密に評価するため、我々はGENIUS(GEN Fluid Intelligence EvalUation Suite)を提案する。我々はGFIを3つの基本要素の統合として形式化する。これには、「暗黙的パターンの帰納(例:個人化された視覚的選好の推論)」、「アドホックな制約の実行(例:抽象的な比喩の可視化)」、「文脈的知識への適応(例:直感に反する物理現象のシミュレーション)」が含まれる。これらの基本要素は、モデルが即時の文脈に完全に基づいて問題を解決することを要求する。代表的な12のモデルに対する体系的な評価により、これらのタスクにおいて性能が大幅に不足していることが明らかになった。決定的に、我々の診断的分析はこれらの失敗モードを分解し、不足が内在的な生成能力の不足ではなく、文脈理解の限界に起因することを実証する。この隔たりを埋めるため、訓練を必要としない注意メカニズム介入戦略を提案する。最終的に、GENIUSはGFIに対する厳密な基準を確立し、知識利用を超え、動的で汎用的な推論へと分野を導く。データセットとコードはhttps://github.com/arctanxarc/GENIUS で公開予定である。
大規模マルチモーダルモデルの急速な発展に伴い、信頼性の高い評価者・批評家モデルが、オープンエンドな評価と選好調整において不可欠となっている。これらはモデル生成応答を評価するために、ペアワイズ選好、数値スコア、説明的根拠を提供する。しかし、既存の批評家モデルは主に、キャプション生成や画像質問応答などの一般的な視覚領域で学習されており、知覚、因果推論、計画立案を含む物理AIタスクは未開拓のままである。本研究では、物理AIに最適化されたマルチモーダル批評家モデルPhyCriticを提案する。これは2段階のRLVRパイプラインを通じて構築される:物理スキル準備段階では物理指向の知覚と推論を強化し、その後自己参照的批評家ファインチューニングを実施する。後者では、批評家が候補応答を評価する前に自身の予測を内部参照として生成し、判断の安定性と物理的正確性を向上させる。物理的および汎用マルチモーダル評価ベンチマークにおいて、PhyCriticはオープンソースベースラインを大幅に上回る性能向上を達成し、政策モデルとして適用した場合、物理的基盤を持つタスクにおける知覚と推論をさらに改善する。
LLMエージェントのドメイン特化ツール呼び出しへの適応は、進化するインターフェース下で顕著に脆弱性を示す。プロンプトとスキーマ設計は導入が容易だが、分布シフトや厳格なパーサーの下では脆く、継続的なパラメータ効率型ファインチューニングは信頼性を向上させるが、トレーニング・メンテナンスコストと潜在的な忘却を伴う。我々は「Lazy Agent」故障モードを特定した。ツール必要性が中間層活性化からほぼ完全にデコード可能であるにもかかわらず、モデルがツールモード移行に保守的となる「表現と行動の乖離」が観測される。本論文ではActivation Steering Adapter(ASA)を提案する。これはトレーニング不要の推論時制御器で、単発の中間層介入を実行し、ルータ条件付きステアリングベクトル混合とプローブ誘導符号付きゲートにより、真の意図を増幅し擬陽性トリガーを抑制する。Qwen2.5-1.5Bを用いたMTU-Benchでは、ASAが厳密なツール使用F1を0.18から0.50に改善し、偽陽性率を0.15から0.05に低減。約20KBのポータブル資産のみで重み更新を必要としない。
基礎モデルの最近の進歩により、国際数学オリンピックで金メダル水準を達成可能な推論システムが生み出されている。しかし、競技レベルの問題解決から専門的な研究へ移行するには、膨大な文献の調査と長大な証明の構築が必要となる。本研究では、数学研究エージェント「Aletheia」を提案する。Aletheiaは、自然言語による解を生成、検証、修正するエンドツーエンドの反復的プロセスを実現する。具体的には、難解な推論問題にはGemini Deep Thinkの高度版を、オリンピック級を超える問題には新しい推論時スケーリング則を、数学研究の複雑性への対応には精緻なツール利用をそれぞれ駆使する。Aletheiaの能力を、オリンピック問題から博士課程レベルの演習問題まで実証し、さらにAI支援数学研究における3つの画期的成果として提示する:(a) 算術幾何学の構造定数である固有重みの計算において、一切の人的介入なしにAIが生成した研究論文(Feng26)、(b) 独立集合と呼ばれる相互作用粒子系の境界値証明において人間とAIが協働した研究論文(LeeSeo26)、(c) BloomのErdos予想データベースの700の未解決問題に対する大規模半自律評価(Feng et al., 2026a)と、うち4問への自律的解決。AIと数学に関する進展の社会的理解を深めるため、AI支援成果の自律性と新規性を定量化する標準レベル体系の確立を提言する。最後に、数学における人間とAIの協働についての考察で締めくくる。
長文脈に対する推論は様々な実世界アプリケーションにおいて重要であるが、大規模言語モデル(LLM)にとっては、文脈長が増すにつれて性能劣化が生じるため、依然として課題となっている。最近の研究MemAgentは、RNNのようなループで文脈をチャンク単位で処理し、最終回答用のテキストメモリを更新する手法でこの問題に取り組んだ。しかし、この単純なリカレントメモリ更新には二つの重大な欠点がある:(i)証拠のないチャンクに対しても無差別に更新が行われるため、メモリが急激に肥大化する可能性;(ii)十分な証拠が収集された後も不必要な計算が続く、終了メカニズムの欠如。これらの問題を解決するため、我々はより安定かつ効率的な長文脈推論を実現する二つのテキスト制御ゲートを組み込んだGRU-Memを提案する。具体的には、GRU-Memでは更新ゲートが開放された時のみメモリが更新され、終了ゲートが開放されるとリカレントループは直ちに終了する。この能力をモデルに付与するため、エンドツーエンド強化学習内に二つの報酬信号r^{update}とr^{exit}を導入し、それぞれ正しい更新行動と終了行動を報酬として与える。様々な長文脈推論タスクにおける実験により、GRU-Memの有効性と効率性が実証され、推論速度が最大400%向上しつつ、一般的に従来のMemAgentを上回る性能を示した。
本論文は、明示的なタイムスタンプ付きで、連続的かつ細粒度な構造化された視聴覚ナレーションを生成する新しいタスク「Omni Dense Captioning」を提案する。高密度な意味的カバレッジを保証するため、映像コンテンツを映画脚本のように場面ごとに鮮明に想像できる「脚本風」キャプションを作成する6次元構造スキーマを導入する。研究促進のため、高品質な人手注釈ベンチマーク「OmniDCBench」を構築し、シーン境界の曖昧さを軽減しながら時間認識型詳細記述を評価する統一指標「SodaM」を提案する。さらに、訓練データセット「TimeChatCap-42K」を構築し、タスク特化型報酬を用いたSFTとGRPOで学習した強力なベースライン「TimeChat-Captioner-7B」を提示する。大規模実験により、TimeChat-Captioner-7BがGemini-2.5-Proを上回る最高性能を達成し、その生成する高密度記述が視聴覚推論(DailyOmniおよびWorldSense)および時間的グラウンディング(Charades-STA)の下流タスク能力を大幅に向上させることを実証する。全データセット、モデル、コードはhttps://github.com/yaolinli/TimeChat-Captioner で公開予定である。
デコーダのみの大規模言語モデルは、ユーザー表現学習のための行動エンコーダとしてますます利用されているが、アテンションマスキングがユーザー埋め込みの品質に与える影響は十分に研究されていない。本研究では、長期的で多様なユーザー行動を統合した大規模実世界Alipayデータで学習された、対比学習の統一フレームワーク内で、因果的、ハイブリッド、双方向のアテンションマスクを系統的に検証する。因果的アテンションから双方向アテンションへの移行時の学習ダイナミクスを改善するため、最適化過程中に将来のアテンションを段階的に開放する線形スケジューラの前に適用する、勾配ベースの事前ウォームアップ手法「勾配誘導型ソフトマスキング」を提案する。予測、選好、マーケティング感応度タスクを網羅する9つの産業用ユーザー認識ベンチマークで評価した結果、本手法は因果的、ハイブリッド、スケジューラのみのベースラインと比較して、より安定した学習と高品質な双方向表現を一貫してもたらし、かつデコーダ事前学習との互換性を維持することが示された。全体として、我々の知見は、デコーダのみのLLMを効果的なユーザー表現学習に適応させる際のマスキング設計と学習移行の重要性を浮き彫りにする。コードはhttps://github.com/JhCircle/Deepfind-GGSMで公開されている。
大規模言語モデル(LLM)は自動ヒューリスティック設計(AHD)において最近有望な成果を示しているが、既存のアプローチでは通常、AHDを構成的優先度規則やパラメータ化された局所探索ガイダンスとして定式化しており、探索空間を固定されたヒューリスティック形式に制限している。このような設計では構造的探索の能力が限られ、複雑な組合せ最適化問題(COP)において深い局所最適解からの脱出が困難となる。本研究では、LLMベースのAHDを大規模近傍探索(LNS)演算子の自動設計に拡張する生成的進化フレームワークであるG-LNSを提案する。従来手法がヒューリスティックを単体で進化させるのに対し、G-LNSはLLMを活用して密結合された破壊演算子と修復演算子のペアを共進化させる。協調的評価メカニズムにより両者の相互作用を明示的に捉えることで、効果的な構造的破壊と再構築を共同で実現する相補的な演算子ロジックの発見を可能にする。巡回セールスマン問題(TSP)や容量制約付き車輛経路問題(CVRP)などの難易度の高いCOPベンチマークにおける大規模な実験により、G-LNSがLLMベースのAHD手法や強力な古典ソルバーを大幅に上回ることを実証した。発見されたヒューリスティックは、計算リソースを削減しながらほぼ最適解を達成するだけでなく、多様な未見インスタンス分布に対して頑健な一般化性能を示す。
大規模言語モデル(LLM)を中核とするエージェントがソフトウェア産業において、協働者または自律的な開発者としてコードを貢献する事例が増加している。その存在感が高まるにつれ、現時点でのコーディング能力の限界を評価することが重要となっている。しかし、既存のエージェント型コーディングベンチマークは、単一のプルリクエスト(PR)内でのバグ修正など、タスク範囲が限定されており、実行不可能な評価に依存したり、評価範囲を継続的に更新する自動化手法が欠如したりすることが多い。こうした課題を解決するため、我々はエンドツーエンドの機能指向ソフトウェア開発におけるエージェント型コーディング性能を評価するベンチマーク「FeatureBench」を提案する。FeatureBenchは、実行ベースの評価プロトコルと、人的労力を最小限に抑えてコードリポジトリからタスクを自動的に導出するスケーラブルなテスト駆動手法を組み込んでいる。依存関係グラフに沿って単体テストをトレースすることで、開発タイムラインに散在する複数のコミットやPRにまたがる機能レベルのコーディングタスクを特定しつつ、機能分離後も他の機能が正常に動作することを保証する。このフレームワークを用いて、初版ベンチマークでは24のオープンソースリポジトリから200の挑戦的な評価タスクと3825の実行可能環境を構築した。実証評価によると、SWE-benchで74.4%の解決率を達成したClaude 4.5 Opusなどの最先端エージェントモデルでも、本タスクの成功率はわずか11.0%であり、エージェント型コーディングの進化に向けた新たな可能性が示された。さらに、自動化されたタスク収集ツールキットの利点により、FeatureBenchはデータ漏洩を軽減しつつ容易にスケールと更新が可能である。構築環境の内在的な検証可能性は、本手法をエージェント訓練にも価値あるものとしている。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する効果的な手法として登場した。その有効性にもかかわらず、RLVRはメタ学習のボトルネックに直面している。すなわち、練習と検証を超えた人間の学習サイクルに内在する誤り帰属と経験の内面化のメカニズムを欠いており、これが細粒度の信用割り当てと再利用可能な知識の形成を制限している。我々は、過去の誤りから導出されたこのような再利用可能な知識表現を**メタ経験** と呼ぶ。この知見に基づき、我々は**メタ経験学習(MEL)** という新しいフレームワークを提案する。これは、自己蒸留されたメタ経験をモデルのパラメトリックメモリに組み込むものである。標準的なRLVRを発展させ、LLMの自己検証能力を活用して、正しい軌跡と誤った軌跡の対比分析を行い、推論誤りが生じる正確な分岐点を特定し、それらを一般化可能なメタ経験として要約する追加の設計を導入する。このメタ経験は、負の対数尤度を最小化することでLLMのパラメトリックメモリにさらに内面化され、正しい推論軌跡と誤った推論軌跡を橋渡しする言語モデル化された報酬信号を誘発し、効果的な知識の再利用を促進する。実験結果は、MELがベンチマークで一貫した改善を達成し、様々なモデルサイズにおいて3.92%~4.73%のPass@1向上をもたらすことを示している。
大規模言語モデル(LLM)の現状において、大規模で高品質な学習データの構築は、モデル性能を左右する主要な要因である。重要な要素の一つがデータレシピであり、これは生データを学習コーパスに変換するデータ処理パイプラインで構成される。データ合成やフィルタリングといった個々のデータ処理ステップの自動化にLLMが活用される機会が増えているものの、データレシピの全体的な設計は依然として人手に依存し、専門家の知見と繰り返しの作業を要する労力集約的なプロセスである。この課題を解決するため、我々はLLM適応のためのエンドツーエンドのデータレシピ生成を定式化する。具体的には、対象ベンチマークと利用可能なデータソース群が与えられたとき、モデルがベースLLMを対象タスクに適応させる完全なデータレシピを出力することを目指す。本論文ではDataChef-32Bを提案する。これは、候補となるレシピの下流タスク性能を予測する代理報酬を用いて、オンライン強化学習を行う。6つの検証タスクにおいて、DataChef-32Bが生成する実用的なレシピは、人間の専門家が作成したレシピと同等の下流タスク性能を達成した。特に、DataChef-32Bが生成したレシピにより、Qwen3-1.7B-Baseを数学領域に適応させた結果、AIME'25で66.7を達成し、Qwen3-1.7Bを上回った。本研究は、LLM学習の自動化と自己進化型AIシステムの開発に新たな知見をもたらすものである。
本論文では、ファクタリゼーション、構造化スパース化、動的圧縮のベースラインと比較して、最先端の性能を達成するトレーニング不要のモデル圧縮手法「ROCKET」を提案する。グローバルな圧縮バジェットの下で動作するROCKETは、2つの重要な革新を包含する。第一に、層ごとの圧縮割り当てを多選択ナップサック問題として定式化し、目標モデルサイズを遵守しながら全体の再構成誤差を最小化するために、各層に対して最適な圧縮レベルを選択する。第二に、辞書学習に着想を得た単一段階のスパース行列分解を導入する。少量のキャリブレーションセットのみを使用し、活性化-重みの感度に基づいて重み係数をスパース化した後、反復最適化、スパースコーディング、または誤差逆伝播を完全に迂回して、最小二乗法による閉形式で辞書を更新する。ROCKETは、20〜50%の圧縮率において、様々なモデルアーキテクチャで既存の圧縮手法を一貫して凌駕する。特に、30%圧縮時において、ファインチューニングを一切行わずに元のモデル性能の90%以上を維持する。さらに、軽微なファインチューニング段階を適用すると、回復が大幅に促進される。例えば、Qwen3-14Bを80億パラメータモデルに圧縮し、わずか3000万トークンで回復させると、元のQwen3-8Bとほぼ同等の性能が得られる。ROCKETのコードはgithub.com/mts-ai/ROCKET/tree/mainで公開されている。
大規模言語モデルにおける強化学習は、高分散なトークンレベルの重要度サンプリング(IS)比に悩まされており、大規模な政策最適化を不安定にする。安定性を向上させるため、最近の手法では一般に、シーケンス内の全トークンに対して固定のシーケンスレベルIS比を使用するか、各トークンのIS比を個別に調整するが、これによりシーケンス内トークン間の時間的オフポリシー導出が無視されがちである。本論文ではまず、局所的オフポリシー偏差がトークンレベルで構造的に不整合であることを実証的に明らかにする。これは隣接トークン間の政策勾配更新を歪め、学習の崩壊を招く可能性がある。この問題に対処するため、我々は安定かつ効果的な政策最適化のためのオンライン因果的カルマンフィルタリング(KPO)を提案する。具体的には、目的とするIS比をトークン間で推移する潜在状態としてモデル化し、カルマンフィルタを適用して、将来のトークンに依存せず、過去のトークンの状態に基づいてこの状態をオンラインかつ自己回帰的に更新する。これにより得られるフィルタリング済みIS比は、トークン単位の局所構造を考慮した変動を保持しつつ、ノイズスパイクを強く平滑化し、より安定かつ効果的な政策更新を実現する。実験では、KPOは困難な数学推論データセットにおいて、最先端の手法と比較して優れた結果を達成する。
ループ構造を持つトランスフォーマーは、言語領域における推論タスクにおいて効率的かつ強力なモデル群として台頭してきました。最近の研究では、これらのモデルがアルゴリズム的タスクや推論タスクで高い性能を達成することが示されており、ループ構造を持つアーキテクチャが潜在的な推論能力に対する帰納的バイアスを有していることが示唆されています。しかし、従来のアプローチでは学習時と推論時のループ反復回数を固定しており、可変の計算予算のもとでこれらのモデルが計算の深さを柔軟に適応させられるかという問題は未解決のままでした。本論文では、可変長の軌道上で学習されたループ構造トランスフォーマーであるLoopFormerを提案し、予算条件付き推論を実現します。中核となる貢献は、異なる長さの軌道を整合させるショートカット一貫性学習手法であり、短いループが有益な表現を生成しつつ、長いループがそれを洗練し続けることを保証します。LoopFormerは各ループを現在の時間とステップサイズで条件付けし、表現が長さの異なる軌道間で一貫して進化する(ドリフトや停滞を起こさない)ことを可能にします。実証的に、LoopFormerは積極的な計算制約下でも言語モデリングと推論ベンチマークで堅牢な性能を示し、追加予算に応じて優雅にスケーリングします。これらの結果は、ループ構造トランスフォーマーが適応的言語モデリングに本質的に適していることを示し、制御可能かつ予算を意識した大規模言語モデルへの道を開くものです。
コーディングエージェントの急速な進展にもかかわらず、そのマルチモーダル版の進歩は遅れている。主要な課題は、ソフトウェア開発の複雑さと、深いマルチモーダル理解の必要性を組み合わせた評価用テストベッドの不足である。ゲーム開発は、エージェントが大規模で高密度なコードベースを操作しつつ、ビジュアルなゲームシーン内のシェーダー、スプライト、アニメーションといった本質的にマルチモーダルなアセットを扱わなければならないため、そのようなテストベッドを提供する。我々は、ゲーム開発タスクにおけるエージェント評価のための最初のベンチマークであるGameDevBenchを提案する。GameDevBenchは、Webおよび動画チュートリアルから抽出された132のタスクで構成される。タスクは重要なマルチモーダル理解を必要とし、従来のソフトウェア開発ベンチマークと比較して、平均的な解決策には3倍以上のコード行数とファイル変更が必要であるという点で複雑である。エージェントは依然としてゲーム開発に苦戦しており、最高のエージェントでもタスクの54.5%しか解決できない。タスクの主観的難易度とマルチモーダル複雑性の間に強い相関が見られ、ゲームプレイ指向タスクでの成功率46.9%から、2Dグラフィックスタスクでは31.6%に低下する。マルチモーダル能力を向上させるため、我々はエージェント向けの2つのシンプルな画像および動画ベースのフィードバック機構を導入する。その単純さにもかかわらず、これらの方法は一貫して性能を向上させ、最大の変化はClaude Sonnet 4.5の性能が33.3%から47.7%に増加したことである。エージェントによるゲーム開発のさらなる研究を支援するため、GameDevBenchを公開する。
思考連鎖データを用いた教師ありファインチューニング(SFT)は、推論能力を持つ言語モデルにとって必須の学習後工程である。標準的な機械学習の直感では、より多くのユニークな訓練サンプルで学習することが、より良い汎化性能をもたらすとされる。しかし直感に反して、本論文ではSFTが反復学習から恩恵を受けることを示す:固定された更新バジェットの下では、より小さなデータセットで多くのエポック学習することが、より大きなデータセットでの単一エポック学習を上回るのである。AIME'24/25およびGPQAベンチマークにおいて、400サンプルを128エポック学習したOlmo3-7Bモデルは、51200サンプルを1エポック学習した同等条件のモデルを、追加の破滅的忘れなしに、12~26パーセントポイント上回った。我々は、訓練トークン正解率が、反復学習が飽和した時点を確実に示すシグナルとなることを発見した。追加エポックによる改善効果は、完全な記憶(完全暗記)に達すると頭打ちとなり、このパターンは全ての設定で一貫していた。これらの知見は、推論SFTに対する実用的なアプローチを提供する。つまり、トークン正解率を停止基準としてエポック数をスケールさせることで、コストのかかる無作為的なデータスケーリングを代替できるのである。我々は、完全な記憶が改善された汎化性能と一致するという「反復学習の利点」を、大規模言語モデルの学習ダイナミクスを理解する上での新たな未解決問題としてコミュニティに提起する。
Group Relative Policy Optimization(GRPO)は、生成完了文内の全てのトークンに単一のスカラー advantage を割り当てる。明示的なセグメントと目的を持つ構造化生成において、これはセグメント間で無関係な報酬信号を結合し、目的間干渉と信用割り当ての誤りを引き起こす。我々は、Blockwise Advantage Estimation を提案する。これはGRPOと互換性のある手法群であり、各目的に独自の advantage を割り当て、それを対応するテキストブロック内のトークンにのみ適用する。これにより、手設計のスカラー報酬への依存を軽減し、追加目的への自然な拡張を可能にする。主要な課題は、報酬が生成された接頭辞に条件付けられる後続ブロックの advantage を推定することである。標準的な不偏推定量は、中間状態からの高コストなネストされたロールアウトを必要とする。具体的には、接頭辞から導出された中間アウトカムに基づいてサンプルを層別化し、グループ内統計のみを用いて中間状態価値を近似する Outcome-Conditioned Baseline を導入する。不確実性推定を伴う数学タスクにおいて、本手法は報酬干渉を軽減し、最先端の報酬設計手法と同等の性能を示し、信頼度重み付けアンサンブルによるテスト時性能向上を維持する。より広義には、これは追加のロールアウトなしで構造化生成における逐次的な目的を最適化するためのモジュール的な手法を提供する。
ハリー・ポッターの世界では、ダンブルドアが記憶で頭が一杯になると、ペンシーブに記憶を抽出して後で参照できるようにする。AIの世界では、我々はペンシーブに相当する成熟したデータベースと検索システムを有しているにも関わらず、モデルにはそれを操作する「杖」が不可解にも欠けている。現在のモデルは、能動性を持たないダンブルドアのように、手動で設計されたコンテキストを受動的に受け入れ、それを自身の記憶の全てとしている。本研究はついに、モデルの手に杖を渡す。我々はStateLMを提案する。これは内部推論ループを備え、自身の状態を管理できる新しい基盤モデルのクラスである。我々はモデルに、コンテキスト剪定、文書索引付け、メモ取りといった記憶ツール群を装備し、これらのツールを能動的に管理するように訓練する。自身のコンテキストを動的に設計することを学ぶことで、モデルは固定長ウィンドウという建築的な牢獄から脱却する。様々なモデルサイズでの実験により、StateLMが多様なシナリオで有効であることを実証する。長文書QAタスクでは、StateLMは全てのモデル規模で標準的なLLMを一貫して上回り、チャット記憶タスクでは、標準的なLLMに対し10%から20%の絶対精度向上を達成する。深層調査タスクBrowseComp-Plusでは、この性能差はさらに顕著となる。StateLMは最大52%の精度を達成するのに対し、標準的なLLMは約5%で苦戦する。最終的に、我々のアプローチはLLMを受動的な予測器から、推論が状態を保持し管理可能なプロセスとなる、状態を意識したエージェントへと転換する。
大規模言語モデル(LLM)を高リスク臨床環境に導入するには、厳密かつ信頼性の高い評価が求められる。しかし、既存の医療ベンチマークは静的であり、二つの重大な限界を抱えている:(1) テストデータが訓練データに意図せず混入するデータ汚染により、性能評価が過大になること、(2) 医学知識の急速な進化を捉えられない時間的ずれである。さらに、自由記述型の臨床推論を評価する現行の指標は、表面的な語彙の重なり(ROUGEなど)か、主観的なLLM-as-a-Judgeによる採点に依存しており、いずれも臨床的正しさを検証するには不十分である。これらの課題を解決するため、我々はLiveMedBenchを提案する。これは、オンライン医療コミュニティから現実の臨床症例を週次で収集し、モデル訓練データとの厳密な時間的分離を保証する、継続的に更新され、汚染がなく、ルーブリックに基づくベンチマークである。我々は、生データのノイズをフィルタリングし、根拠に基づく医療原則に照らして臨床的整合性を検証するマルチエージェント臨床選定フレームワークを提案する。評価においては、医師の回答を細分化された症例特異的基準に分解する自動ルーブリック評価フレームワークを開発し、LLM-as-a-Judgeよりも専門医の評価とはるかに強く一致する結果を得た。現在までに、LiveMedBenchは38の診療科と複数言語にわたる2,756の現実症例と、16,702の独自の評価基準を包含する。38のLLMに対する広範な評価により、最高性能のモデルでさえ39.2%の正答率に留まり、84%のモデルがカットオフ日後の症例で性能劣化を示し、データ汚染リスクが広範に存在することが確認された。誤り分析からは、事実知識ではなく文脈への応用が主要なボトルネックであることが明らかになり、失敗の35-48%は患者特異的な制約に医学知識を適応できないことに起因していた。
強化学習(RL)は、大規模言語モデル(LLM)の学習後調整における重要な段階であり、ロールアウト生成、報酬評価、集中学習間の反復的な相互作用を含む。ロールアウト実行を分散化することは、よりコスト効率の高い推論リソースを活用する機会を提供するが、広域協調とポリシー伝播における課題を導入する。本論文では、遠隔の推論ワーカーと無視できない伝播遅延を伴う学習後調整のための分散RLフレームワークであるECHO-2を提案する。ECHO-2は、集中学習と分散ロールアウトを組み合わせ、有界なポリシー陳腐化をユーザー制御可能なパラメータとして扱うことで、ロールアウト生成、伝播、学習のオーバーラップを可能にする。学習時間、伝播遅延、ロールアウトスループットを関連付けるオーバーラップベースの容量モデルを導入し、学習器の利用率を維持するための実用的なリソース割り当てルールを導出する。伝播のボトルネックを緩和しコストを削減するため、ECHO-2はピア支援パイプライン型ブロードキャストと、異種ワーカーのコストを考慮した活性化を採用する。実広域帯域幅環境下での4Bおよび8Bモデルに対するGRPO学習後調整における実験により、ECHO-2が強力なベースラインと同等のRL報酬を維持しつつ、コスト効率を大幅に改善することを示す。
訓練予算を超えて継続的に改善可能な大規模言語モデル(LLM)は、推論時に適応することで、次第に難易度の高い問題を解決できる。この性質を本論文では「外挿」と呼ぶ。しかし、標準的な強化学習(RL)は固定された問題分布と訓練予算に基づいて動作するため、推論時の分布シフトにおける外挿が制限される。この問題に対処するため、我々は訓練時と推論時の両方において標準的な自己回帰的復号化を置き換える、反復的復号化アルゴリズムRCを提案する。RCは、LLMが持つ応答生成能力と要約能力の非対称性を利用し、反復を重ねるごとに一貫して改善される推論連鎖を構築する。RCを使用するように訓練されたモデルは、訓練時に経験した推論ホライズンよりも1桁以上長いホライズンにわたって外挿し、継続的に改善することができる。実証実験では、16000トークンの訓練予算で4BパラメータモデルをRCで訓練し、推論時に50万トークンを使用することで、HMMT 2025における正答率を40%から約70%に改善し、同等規模のモデルや多くの大規模推論LLMを上回った。最後に、RCで訓練されたモデルは、訓練を通じて獲得された改善された要約条件付き生成能力により、既存の支援手法をより効果的に活用して推論時の性能をさらに拡張できることも示す。
オムニモーダル大規模言語モデル(OLLM)はマルチモーダルな理解と生成を統合することを目指すが、自然なインタラクションにおいて重要であるにもかかわらず、音声と3D顔面アニメーションの統合は未開拓の領域である。主要な課題は、LLMにおける離散的・トークンレベルの意味推論と、3D顔面モーションに必要な密な時間的ダイナミクスとの表現ミスマッチから生じる。このミスマッチにより、限られたデータ条件下での直接的なモデリングの最適化が困難となる。本論文では、音声を伴う3D顔面アニメーション機能をOLLMに拡張するオープンソースのオムニモーダルフレームワーク、Expressive Omni(Ex-Omni)を提案する。Ex-Omniは、意味推論と時間的生成を分離し、音声ユニットを時間的な足場として活用し、制御された意味注入のための統一されたトークン・アズ・クエリゲート融合(TQGF)メカニズムを用いることで、学習難易度を低減する。さらに、音声を伴う3D顔面アニメーションによるOLLMの拡張を促進することを目的としたデータセットInstructExを導入する。大規模な実験により、Ex-Omniが既存のオープンソースOLLMと競合する性能を発揮しつつ、安定した同期した音声と顔面アニメーションの生成を可能にすることを実証する。
長期的計画立案は、自律的なLLMベースエージェントの核心的な能力として広く認識されている。しかし、現行の評価フレームワークは、そのほとんどがエピソード的、領域特化的、あるいは持続的な経済ダイナミクスに十分に根ざしていないという問題を抱えている。本論文では、インタラクティブな経済環境における継続的な計画立案と実行の意思決定を評価する、一般化可能なベンチマーク「EcoGym」を提案する。EcoGymは、Vending、Freelance、Operationという3つの多様な環境から構成され、標準化されたインターフェースを持つ統一的な意思決定プロセスと、実質的に無制限の時間軸(評価用の365日ループで1000ステップ以上)における予算化されたアクションで実装されている。EcoGymの評価は、純資産、収入、DAUなどビジネスに関連する成果に基づき、部分観測性と確率性の下での長期的な戦略的一貫性と頑健性を対象とする。11の主要LLMを用いた実験により、体系的ジレンマが明らかになった。すなわち、3つのシナリオ全てで優位に立つ単一のモデルは存在しない。決定的な発見として、モデルは高レベルの戦略か、効率的なアクション実行のいずれかにおいて、顕著な次最適性を示すことが判明した。EcoGymは、透明性のある長期的エージェント評価と、現実的な経済環境における制御可能性と有用性のトレードオフを研究するための、オープンで拡張可能なテストベッドとして公開されている。
エージェント型コーディングでは、エージェントがコマンドラインインターフェース(CLI)などのランタイム環境と効果的に相互作用し、依存関係の問題解決やシステム障害の修正などのタスクを完了する必要がある。しかし、このような環境集約型タスクを大規模に取得し、エージェントの能力を強化する方法は未だ十分に検討されていない。この課題に対処するため、Dockerfileとエージェントタスクの類似性に基づき、実行フィードバックをガイドとしてエージェントによる環境履歴のシミュレーションと探索を提案する。正常な環境の履歴を追跡することで、その状態をランタイム障害が発生した以前の状態に逆転させることが可能であり、不具合のある状態と対応するエラーメッセージをパッケージ化することでタスクを導出できる。本手法「CLI-Gym」により、合計1,655の環境集約型タスクを導出し、同種のデータセットとしては最大規模を実現した。さらに、精選された成功軌跡を用いてファインチューニングしたモデル「LiberCoder」は、Terminal-Benchにおいて+21.1%(46.1%到達)の絶対的な改善を達成し、各種強力なベースラインを凌駕する。我々の知る限り、環境集約型タスクのスケーラブルな導出に向けた初の公開パイプラインである。
リグ付き3Dアセットは、3D変形とアニメーションの基盤となる。しかし、既存の3D生成手法はアニメーション可能な形状の生成に課題を抱えており、リギング技術は骨格作成における細かい構造制御を欠いている。これらの限界に対処するため、我々はStroke3Dを提案する。これはユーザー入力(2Dで描画されたストロークと記述的なテキストプロンプト)から直接リグ付きメッシュを生成する新しいフレームワークである。本手法は、生成プロセスを以下2段階に分離した画期的なパイプラインを採用する。(1) 制御可能な骨格生成: Skeletal Graph VAE (Sk-VAE) を用いて骨格のグラフ構造を潜在空間に符号化し、Skeletal Graph DiT (Sk-DiT) が骨格埋め込みを生成する。生成プロセスは、意味情報としてのテキストと、明示的な構造制御のための2Dストロークの両方で条件付けられ、VAEのデコーダが最終的な高品質な3D骨格を復元する。(2) TextuRig と SKA-DPO による拡張メッシュ合成: 生成された骨格を条件としてテクスチャ付きメッシュを合成する。この段階では、まず既存の骨格-メッシュ変換モデルを拡張する。具体的には、Objaverse-XLから精選された、キャプション付きのテクスチャ・リグ付きメッシュデータセットであるTextuRigを用いて学習データを増強する。さらに、骨格-メッシュ整合性スコアに基づく選好最適化戦略SKA-DPOを採用し、形状の忠実度をさらに向上させる。これらを統合した本フレームワークは、アニメーション準備が整った3Dコンテンツ作成のための、より直感的なワークフローを実現する。我々の知る限り、ユーザー描画の2Dストロークを条件としてリグ付き3Dメッシュを生成する研究は本研究が初めてである。大規模な実験により、Stroke3Dが妥当な骨格と高品質なメッシュを生成することを実証した。
大規模言語モデル(LLM)がポーランド語アプリケーションでますます利用されるにつれ、効率的かつ正確なコンテンツ安全性分類器の必要性が極めて重要となっている。本論文では、コンパクトなポーランド語安全性分類器群であるBielik Guardを提案する。これは2つのモデル変種から構成される:MMLW-RoBERTa-baseを基にした0.1Bパラメータモデルと、PKOBP/polish-roberta-8kを基にした0.5Bパラメータモデルである。コミュニティにより注釈付けされた6,885件のポーランド語テキストデータセットでファインチューニングされたこれらのモデルは、コンテンツを5つの安全性カテゴリ(ヘイト/攻撃性、卑語、性的コンテンツ、犯罪、自傷行為)に分類する。評価の結果、両モデルは複数のベンチマークで強力な性能を達成することが示された。0.5B変種はテストセットにおいてF1スコアが0.791(マイクロ平均)、0.785(マクロ平均)と、最高の全体的な識別能力を提供する一方、0.1B変種は卓越した効率性を示した。特筆すべきは、Bielik Guard 0.1B v1.1が実ユーザープロンプトにおいて優れた精度(77.65%)と非常に低い偽陽性率(0.63%)を達成し、モデルサイズが同一であるHerBERT-PL-Guard(精度31.55%、偽陽性率4.70%)を凌駕している点である。これらのモデルは公開されており、特に自傷行為のような敏感なカテゴリにおいて、単純なコンテンツブロックではなく適切な応答を提供するように設計されている。
クエリ処理(QP)は、大規模ソーシャルネットワークサービス(SNS)検索エンジンにおけるユーザー意図とコンテンツ供給を橋渡しする。従来のQPシステムは、分離された識別モデル(例:BERT)のパイプラインに依存しており、意味理解の限界と高い保守コストに悩まされている。大規模言語モデル(LLM)は潜在的な解決策を提供するが、既存のアプローチは部分タスクを個別に最適化することが多く、内在的な意味的相乗効果を無視し、独立した反復を必要とする。さらに、標準的な生成手法はSNSシナリオに根ざしておらず、オープンドメインコーパスと非公式なSNS言語パターンの間の隔たりを埋められず、厳格なビジネス定義への準拠にも苦戦する。本論文では、SNS領域におけるマルチタスククエリ理解のための統一生成LLMであるQP-OneModelを提案する。異種の部分タスクを統一された系列生成パラダイムに再定式化し、マルチ報酬強化学習を頂点とする段階的な3段階アライメント戦略を採用する。さらにQP-OneModelは、新しい高精度な意味信号として意図記述を生成し、クエリ書き換えやランキングなどの下流タスクを効果的に増強する。オフライン評価では、QP-OneModelが識別ベースラインを7.35%総合で上回り、NER(+9.01%)とTerm Weighting(+9.31%)で顕著なF1向上を示した。未見タスクにおいて32Bモデルを7.60%の精度で上回る優れた汎化性能も発揮する。小红书への完全導入後、オンラインA/Bテストでは検索関連性(DCG)0.21%向上、ユーザー定着率0.044%上昇を確認し、その産業的価値を実証した。
大規模画像編集モデルの最近の進歩は、テキスト駆動の指示から、ユーザーの意図をマークや矢印、視覚的テキストプロンプトなどの視覚的入力から直接推論する「視覚プロンプト編集」へとパラダイムを移行させている。このパラダイムは利便性を大きく拡大する一方で、重大かつ十分に検討されていない安全リスクも導入する。すなわち、攻撃対象領域そのものが視覚的になるのである。本論文では、悪意のある指示を視覚入力のみで伝達する、初の視覚対視覚ジャイルブレイク攻撃であるVision-Centric Jailbreak Attack (VJA) を提案する。この新興の脅威を体系的に研究するため、画像編集モデルのための安全性指向ベンチマークであるIESBenchを導入する。IESBenchにおける大規模な実験により、VJAが最先端の商用モデルに対して有効に妥協を図り、Nano Banana Proでは最大80.9%、GPT-Image-1.5では70.1%の攻撃成功率を達成することが実証された。この脆弱性を軽減するため、内省的多モーダル推論に基づくトレーニング不要の防御手法を提案する。これは、補助的なガードモデルを必要とせず、計算オーバーヘッドを無視できる程度に抑えながら、整合性の低いモデルの安全性を商用システムに匹敵するレベルまで大幅に向上させる。我々の発見は新たな脆弱性を明らかにし、安全で信頼できる現代の画像編集システムを推進するためのベンチマークと実用的な防御の両方を提供する。警告:本論文には大規模画像編集モデルによって作成された不快な画像が含まれています。
知識グラフ(KG)は、エンティティを関係性で結びつけることで構造化された事実知識を格納し、多くのアプリケーションにおいて重要な役割を果たしている。これらのアプリケーションはKGの事実の正確性に依存するため、事実検証は不可欠であるが、困難な課題である。専門家による手動検証が理想的ではあるが、大規模には非現実的である。自動化手法は有望であるものの、実世界のKGへの適用には未だ成熟していない。大規模言語モデル(LLM)は、その意味理解能力と知識アクセスにより可能性を秘めているが、KGの事実検証における適性と有効性はほとんど検討されていない。 本論文では、LLMのKG事実検証能力を3つの重要側面から評価するためのベンチマークFactCheckを提案する:(1)LLMの内部知識、(2)検索拡張生成(RAG)を介した外部証拠、(3)複数モデルの合意に基づく集約知識。3つの多様な実世界KGを用いて、オープンソースおよび商用LLMを評価した。FactCheckには、KG事実検証向けに調整された200万以上の文書からなるRAGデータセットも含まれる。さらに、検証判断を分析するための対話型探索プラットフォームを提供する。 実験分析により、LLMが有望な結果を示す一方で、実世界のKG検証シナリオで使用するには未だ十分に安定性と信頼性に欠けることが実証された。RAG手法による外部証拠の統合は性能が不安定であり、より簡素な手法に対し一貫した改善をもたらさないまま、計算コストが高くなる場合があった。同様に、複数モデル合意に基づく戦略も個々のモデルを一貫して上回るわけではなく、万能な解決策の欠如を浮き彫りにした。これらの知見は、この困難かつ重要な課題を体系的に評価し進展を促すためのFactCheckのようなベンチマークの必要性をさらに強調するものである。
明示的なChain-of-Thought(CoT)は大規模言語モデルに強力な推論能力をもたらすが、モデルはすべての中間ステップをテキストトークンで言語化する必要があり、モデルの思考は離散的な語彙空間に制約される。近年、連続潜在空間での推論が有望な代替手法として登場し、離散トークンの制約を超えたよりロバストな推論と柔軟な計算を可能にしている。しかし、現在の潜在空間パラダイムでは、隠れ状態を反復的に入力埋め込みとして使用する際の分布ミスマッチ、あるいは補助モデルへの依存に起因するアライメント問題から、特徴量の崩壊や不安定性が生じることが多い。この問題に対処するため、我々は潜在思考の構築と展開方法を再定義するフレームワーク「Latent Thoughts Tuning(LT-Tuning)」を提案する。本手法は、生の隠れ状態のみに依存するのではなく、文脈的隠れ状態と語彙埋め込み空間からの予測的意味ガイダンスを共同利用するContext-Prediction-Fusionメカニズムを導入する。段階的な3段階のカリキュラム学習パイプラインと組み合わせることで、LT-Tuningは潜在思考モードと明示的思考モードの動的切り替えも可能にする。実験により、本手法が既存の潜在推論ベースラインを凌駕し、特徴量の崩壊を効果的に緩和し、ロバストな推論精度を達成することが実証された。
検証可能な報酬による強化学習(RLVR)は最近LLMの推論能力を強化しているが、最終回答の正確性に焦点を当てるあまり、推論プロセス自体の頑健性を確保できないという重大な欠陥がある。我々は「頑健な推論は、それを生み出した主体を超えて有用性を保つべきである」という簡潔な哲学的観点に立ち、推論を「切り詰め・再解釈・継承」を経ても維持される意味伝達の一形態として扱う。この原理に基づき、我々は転移可能な報酬による強化学習(RLTR)を提案する。RLTRは、あるモデルから得た部分推論prefixが別のモデルを正答に導けるかを検証する転移報酬を通じて頑健性を具現化する。これによりLLMは、安定性・解釈性・真の一般化性を備えた推論を生成するよう促進される。本手法は最終回答精度を向上させつつサンプリング一貫性を高め、大幅に少ない訓練ステップで同等の性能を達成する。例えばMATH500では、RLTRはRLVR比でMaj@64が+3.6%ポイント向上し、RLVRの平均精度を訓練ステップ数約2.5分の1で達成する。これにより、より信頼性の高い推論と著しく効率的なサンプル利用を両立させる。
推論モデルはテスト時の計算リソースを拡張することで問題解決能力を向上させるが、深刻なパラドックスに直面している:過剰な思考トークンが性能向上ではなくむしろ劣化を招くのである。我々はこれを根本的なアーキテクチャの欠陥と考える:標準的なLLMは「malloc専用」エンジンとして動作し、有効なステップと冗長なステップを区別なく継続的に蓄積し、陳腐化した情報を剪定するメカニズムを欠いている。この循環を打破するため、我々はFree()LMを提案する。これはFree-Module(プラグアンドプレイのLoRAアダプタ)を通じて内在的な自己忘却能力を導入するモデルである。推論モードとクリーニングモードを反復的に切り替えることで、Free()LMは有用でない文脈チャンクを動的に特定・剪定し、コンパクトでノイズのない状態を維持する。 大規模な実験により、Free()LMが全てのモデル規模(8Bから685B)で一貫した改善をもたらすことが示された。これは最高水準の推論ベースラインを平均3.3%上回り、DeepSeek V3.2-Specialeを用いたIMOanswerBenchでは新たなSOTAを確立した。特に注目すべきは、標準的なQwen3-235B-A22Bモデルが完全に崩壊(0%精度)する長期的タスクにおいて、Free()LMが性能を50%に回復させた点である。我々の発見は、持続可能な知能には思考する力と同様に忘却する自由が必要であることを示唆している。
大規模言語モデル(LLM)ベースのエージェントが自律的に交渉・調整・取引を行うことが期待される中、既存のベンチマークには複数エージェント間の言語媒介型経済相互作用を評価するための体系的な設定が欠如している。本論文では、自然言語駆動型の多エージェント買い手・売り手交渉のためのベンチマークおよびシミュレーションフレームワーク「AgenticPay」を提案する。AgenticPayは、買い手と売り手が私的な制約と製品依存の評価値を有し、数値入札のみならず複数ラウンドにわたる言語的交渉を通じて合意に達する必要がある市場をモデル化する。本フレームワークは、二者間交渉から多対多市場まで110以上に及ぶ多様なタスクをサポートし、構造化された行動抽出と、実現可能性・効率性・厚生に関する指標を備える。最先端のプロプライエタリおよびオープンウェイトLLMをベンチマークした結果、交渉性能に大きな隔たりが確認され、長期的戦略的推論における課題が浮き彫りとなった。これによりAgenticPayは、エージェント型商取引および言語ベース市場相互作用の研究基盤として位置づけられる。コードとデータセットは以下で公開されている:https://github.com/SafeRL-Lab/AgenticPay
大規模言語モデル(LLM)コードエージェントは、コードの反復的編集、ツールの呼び出し、候補パッチの検証を通じて、リポジトリレベルの課題解決を進化させている。このようなワークフローでは、SWE-benchリーダーボードで高順位のエージェントの多くが採用するように、エージェントがその場でテストを記述するパラダイムが一般的である。しかし、新規テストをほとんど記述しないGPT-5.2でさえ、トップクラスのエージェントに匹敵する性能を達成できることが観察されている。これは、こうしたテストが課題解決を実質的に改善するのか、それとも大幅なインタラクション予算を消費しながら単に人間のテスト慣行を模倣しているに過ぎないのかという重要な疑問を提起する。 エージェント記述テストの影響を明らかにするため、我々はSWE-bench Verifiedにおいて6つの最先端LLMのエージェント軌跡を分析する実証研究を行う。結果によれば、テスト記述は一般的に採用されているものの、同一モデル内で解決済みと未解決のタスク間ではテスト記述頻度に類似性が認められる。さらに、これらのテストは通常、観察的フィードバックチャネルとして機能し、エージェントは形式的なアサーションベースのチェックよりも、値を表示するプリント文を有意に好んで使用する。これらの知見に基づき、4つのエージェントのプロンプトを改変し、テスト記述を増加または減少させる制御実験を実施した。結果は、エージェント記述テストの量の変化が最終結果に有意な変化をもたらさないことを示唆している。以上を総合すると、現在のテスト記述慣行は自律的なソフトウェアエンジニアリングタスクにおいて限定的な効用しか提供していない可能性が示される。
大規模言語モデル(LLM)は、高速で非公式な開発ワークフローにおけるコード生成にますます利用されており、これはしばしば「バイブコーディング」と呼ばれ、速度と利便性が優先され、セキュリティ要件が明示されないことが多い。このような環境では、モデルは機能的には正しいが安全でないコードを頻繁に生成し、増大するセキュリティリスクを生み出している。コードのセキュリティを向上させる既存のアプローチは、全パラメータのファインチューニングまたはパラメータ効率型適応に依存しているが、これらはコストが高く破滅的忘れを起こしやすいか、あるいは粗い粒度で動作し解釈性と制御性が限られている。 本論文では、コード言語モデルのセキュリティをデフォルトで改善するニューロンレベルのフレームワークであるGoodVibeを提案する。GoodVibeは、セキュリティに関連する推論がごく一部のニューロンのサブセットに局在しているという重要な洞察に基づいている。我々は、教師ありセキュリティタスクからの勾配ベースの帰属分析を用いてこれらのニューロンを特定し、このセキュリティ批判的部分空間のみを更新するニューロン選択的ファインチューニングを実行する。トレーニングコストをさらに削減するため、活性化駆動型ニューロンクラスタリングを導入し、最小限のオーバーヘッドで構造化された更新を可能にする。GoodVibeを、C++、Java、Swift、Goを含むセキュリティ批判的プログラミング言語にわたる6つのLLMで評価した。GoodVibeは、生成コードのセキュリティを大幅に改善しながらモデルの一般的な有用性を維持し、ベースモデルに対して最大2.5倍の改善、フルファインチューニングと同等かそれを上回る性能を訓練可能パラメータ数47,000分の1以下で達成し、パラメータ効率型ベースライン(LoRA)と比較してトレーニング計算量を3.6倍以上削減した。我々の結果は、ニューロンレベル最適化が、効率や汎用性を犠牲にすることなく、コード生成を保護するための効果的かつスケーラブルなアプローチを提供することを実証している。
自己進化メモリは大規模言語モデル(LLM)ベースのエージェントにおける学習可能なパラメータとして機能し、抽出(経験からの知見の蒸留)と管理(メモリバンクの更新)が緊密に連携する必要がある。既存手法は、メモリ抽出を静的なプロセスとして扱いながら主にメモリ管理を最適化するため、一般化性能が低く、エージェントはロバストなメモリではなくインスタンス特有のノイズを蓄積してしまう。この問題を解決するため、我々はメモリ抽出と管理を統合的に最適化する自己進化型エージェントフレームワークUMEMを提案する。特定インスタンスへの過適合を緩和するため、意味的近傍モデリングを導入し、GRPOによる近傍レベル限界効用報酬を用いてモデルを最適化する。この手法は、意味的に関連するクエリ群におけるメモリ効用を評価することで、メモリの一般化性を保証する。5つのベンチマークによる大規模実験により、UMEMが競合ベースラインを大きく上回り、マルチターン対話タスクで最大10.67%の性能向上を達成することを実証した。さらにUMEMは連続進化過程において単調成長曲線を維持する。コードとモデルは公開予定である。
動的で人間中心の環境におけるロボットは、言語指示に従うとともに、リアルタイムの反応制御を維持しなければならない。Vision-Language-Action(VLA)モデルは有望な枠組みを提供するが、意味推論が本質的にリアルタイム動作に対して遅延するにもかかわらず、時間的に同期した推論と制御を前提としている。本研究では、行動生成中の遅延した意味推論を明示的にモデル化する、レイテンシを考慮したフレームワーク「Think-in-Control(TIC)-VLA」を提案する。TIC-VLAは、現在の観測に加えて、遅延した視覚言語意味状態と明示的なレイテンシメタデータに基づいて行動生成を条件付ける、遅延セマンティック-コントロールインターフェースを定義し、非同期推論を補償するポリシーを可能にする。さらに、模倣学習およびオンライン強化学習中に推論推論遅延を注入し、トレーニングを非同期展開に整合させる、レイテンシ整合型トレーニングパイプラインを提案する。現実的な評価を支援するため、動的環境における言語誘導ナビゲーションのための、物理精度が高く写実的なシミュレーションスイートDynaNavを提示する。シミュレーションおよび実ロボットによる広範な実験により、TIC-VLAが数秒に及ぶ推論遅延下で堅牢なリアルタイム制御を維持しつつ、従来のVLAモデルを一貫して上回ることを示す。プロジェクトウェブサイト: https://ucla-mobility.github.io/TIC-VLA/
拡散モデルは優れた生成品質を実現しているが、複数の逐次的なノイズ除去ステップに依存するため推論コストが高く、この推論プロセスを少数ステップに蒸留する近年の取り組みが進められている。しかし既存の蒸留手法では、教師軌道を線形ショートカットで近似することが一般的であり、タイムステップ間で速度が進化する際に接線方向が絶えず変化する教師軌道を正確に模倣することが困難で、品質劣化を招く。この課題を解決するため、我々は非線形フロー軌道を明示的に用いて事前学習済み教師軌道を近似する少数ステップ蒸留フレームワーク「ArcFlow」を提案する。具体的には、ArcFlowは推論軌道の基盤となる速度場を連続的な運動量プロセスの混合としてパラメータ化する。これにより、ArcFlowは速度の進化を捉え、コヒーレントな速度を外挿して各ノイズ除去ステップ内で連続的な非線形軌道を形成できる。重要な点は、このパラメータ化により非線形軌道の解析的積分が可能となり、数値的な離散化誤差を回避して教師軌道の高精度近似を実現することである。このパラメータ化を少数ステップ生成器として学習させるため、軽量アダプタを用いた事前学習済み教師モデルに対する軌道蒸留によりArcFlowを実装する。この戦略により、生成の多様性と品質を維持しつつ、高速かつ安定した収束を保証する。大規模モデル(Qwen-Image-20BおよびFLUX.1-dev)上に構築されたArcFlowは、元のパラメータの5%未満のみをファインチューニングし、元の多段階教師モデルに対して2回の関数評価で40倍の高速化を実現しつつ、品質の大幅な劣化を抑えている。ベンチマーク実験により、ArcFlowの有効性が定性的・定量的に実証された。
混合専門家(Mixture-of-Experts: MoE)アーキテクチャの急速な普及は、大規模言語モデル(LLM)の展開における大きな転換点を示している。MoE LLMはトークンごとにごく一部のパラメータのみを活性化することでスケーリング効率を向上させるが、そのルーティング構造は新たなセキュリティ攻撃の表面を導入する。本研究では、MoE LLMにおける安全性重視の振る舞い(例:拒否応答)が均一に分布するのではなく、少数の専門家群に集中していることを明らかにする。この知見に基づき、我々は訓練不要でアーキテクチャに依存しない攻撃手法「Large Language Lobotomy (L^3)」を提案する。本手法は専門家のルーティング動態を悪用して安全性調整を侵害する。L^3は拒否応答と相関するルーティングパターンを学習し、安全性の振る舞いを特定の専門家に帰属させ、有害な出力が生成されるまで最も安全性に関連する専門家を適応的に沈黙させる。我々は8つの最先端オープンソースMoE LLMでL^3を評価し、本適応的専門家沈黙化により平均攻撃成功率が7.3%から70.4%に向上し、最大86.3%に達し、従来の訓練不要MoE jailbreak手法を凌駕することを示す。さらに、ガードレールの回避には通常、層ごとの専門家の20%未満の沈黙化のみを要し、一般的な言語機能は大部分が維持される。これらの結果は、効率性を重視したMoE設計と堅牢な安全性調整の間の根本的な緊張関係を明らかにし、将来のMoE LLMにおいて、アーキテクチャおよびルーティングを意識した手法により安全性機構をより堅牢に分散させる必要性を示唆する。
大規模言語モデル(LLM)開発における主流のパラダイムは、ベースモデルを事前学習した後、性能とモデルの振る舞いを改善するための追加学習を実施するというものである。しかし、ハイパーパラメータ最適化やスケーリング則に関する研究は、主にベースモデルの検証損失の観点から行われており、下流タスクへの適応性が無視されてきた。本研究では、モデルの可塑性、すなわちベースモデルがファインチューニングを通じて下流タスクにうまく適応する能力の観点から事前学習を検討する。我々は、事前学習における重要な正則化パラメータであるWeight Decayの役割に焦点を当てる。系統的な実験を通じて、より大きなWeight Decay値で学習されたモデルは可塑性が高く、下流タスクでファインチューニングした際に大きな性能向上を示すことを明らかにする。この現象は、事前学習後の性能が低いベースモデルが、ファインチューニング後にはより優れた性能を発揮するという直感に反するトレードオフを生み出す可能性がある。Weight Decayがモデルの振る舞いに及ぼす機序的影響をさらに調査した結果、それは線形分離可能な表現を促進し、注意行列を正則化し、訓練データへの過学習を軽減することがわかった。結論として、本研究は、ハイパーパラメータ最適化において交差エントロピー損失以外の評価指標を使用することの重要性を実証し、単一の最適化ハイパーパラメータがモデルの振る舞いを形成する上で果たす多面的な役割を明らかにするものである。
コンピュータ利用エージェント(CUA)は過去1年間で目覚ましい進歩を遂げたが、ユーザーの本来の意図から逸脱した不整合なアクションを頻繁に生成する問題が依然として存在する。このような不整合なアクションは、外部からの攻撃(例:間接的プロンプトインジェクション)または内部的な制限(例:誤った推論)に起因する可能性がある。これらはCUAを安全上のリスクに晒すだけでなく、タスクの効率性と信頼性を低下させる。本研究は、CUAにおける不整合アクション検出の定義と研究に初めて取り組み、外部要因によって誘発されるものと内部要因によって生じるものの両方を包括的に扱う。さらに、実世界のCUA展開において一般的な3つのカテゴリを特定し、人間によるアクションレベルの整合性ラベルが付与された現実的な軌跡のベンチマークMisActBenchを構築した。加えて、実行前の不整合アクションを検出し、構造化されたフィードバックを通じて反復的に修正する実用的で汎用的なガードレールDeActionを提案する。DeActionは、適度なレイテンシオーバーヘッドでオフラインおよびオンライン評価の両方において既存のベースラインを全て上回る性能を示した:(1)MisActBenchではF1スコアでベースラインを15%以上(絶対値)上回り、(2)オンライン評価では、敵対的環境下での攻撃成功率を90%以上低減すると同時に、正常環境下ではタスク成功率を維持あるいは向上させた。
過去10年間、説明可能なAIの研究は主に個々のモデル予測の解釈に焦点を当て、固定された意思決定構造の下で入出力を関連付ける事後的説明を生成してきた。大規模言語モデル(LLM)の最近の進歩により、複数ステップの軌跡にわたって行動が展開するエージェント型AIシステムが可能となった。これらの設定では、成功と失敗は単一の出力ではなく、一連の意思決定によって決定される。有用ではあるものの、静的な予測向けに設計された説明手法が、時間の経過とともに行動が創発するエージェント設定にどのように転換されるかは不明なままである。本研究では、属性ベースの説明と軌跡ベースの診断を両設定で比較することで、静的説明可能性とエージェント型説明可能性の間の隔たりを埋める。この区別を明確にするため、静的分類タスクで使用される属性ベースの説明と、エージェント型ベンチマーク(TAU-bench AirlineおよびAssistantBench)で使用される軌跡ベースの診断を実証的に比較する。結果は、属性手法が静的設定では安定した特徴ランキングを達成する(Spearman ρ=0.86)一方で、エージェント軌跡における実行レベル失敗の診断には信頼性をもって適用できないことを示す。対照的に、エージェント設定向けの軌跡に基づくルーブリック評価は、一貫して行動の崩壊を局所化し、状態追跡の不整合が失敗した実行で2.7倍頻繁に発生し、成功確率を49%減少させることを明らかにした。これらの知見は、自律的AI行動を評価・診断する際のエージェントシステム向け軌跡レベル説明可能性への転換を促すものである。 リソース: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
フェデレーテッドラーニング(FL)は、複数の参加者が生データを共有することなく協調的に機械学習モデルを訓練することを可能にする。しかし、訓練の前段階では、欠損値、不統一な形式、異種混合の特徴量スケールに対処するため、データの前処理が必須である。この前処理段階はモデル性能に決定的に重要であるにもかかわらず、FL研究ではほとんど注目されてこなかった。実用的なFLシステムでは、プライバシー制約により生データの集中化が禁止され、通信効率の要件が分散型前処理にさらなる課題をもたらす。本論文では、集計統計量に基づく統合的フレームワークFedPSを提案する。FedPSはデータスケッチ技術を活用し、本質的な統計情報を保持しながらローカルデータセットを効率的に要約する。これらの要約情報に基づき、特徴量のスケーリング、エンコーディング、離散化、欠損値補完のためのフェデレーテッドアルゴリズムを設計し、k-Means、k-近傍法、ベイズ線形回帰といった前処理関連モデルを水平および垂直FL設定に拡張する。FedPSは、実用的なFL展開のための柔軟で通信効率が高く、一貫性のある前処理パイプラインを提供する。
自己回帰モデルによる生成的推薦は、検索とランキングを単一の条件付き生成フレームワークに統合してきた。しかし、強化学習(RL)を用いたこれらのモデルの微調整は、確率と報酬の根本的なミスマッチに悩まされることが多い。従来の尤度主導デコーディング(例:ビームサーチ)は、局所的に確率の高い接頭辞に対して近視眼的なバイアスを示し、二つの重大な問題を引き起こす。(1) 探索不足:低確率分枝にある高報酬アイテムが早期に刈り込まれ、ほとんどサンプリングされない。(2) アドバンテージ圧縮:高確率の接頭辞を共有する軌跡は高度に相関した報酬を受け、グループ内分散が低いため、RLにとって弱い比較信号となる。これらの課題に対処するため、我々はV-STAR(Value-guided Sampling and Tree-structured Advantage Reinforcement)フレームワークを提案する。V-STARは、相乗効果を持つ二つのコンポーネントを通じて自己進化的なループを形成する。第一に、Value-Guided Efficient Decoding (VED) を開発し、決定的なノードを特定し、潜在能力の高い接頭辞を選択的に深堀りする。これにより、網羅的な木探索を行うことなく探索効率が向上する。第二に、誘導された木構造を利用して兄弟間相対アドバンテージを計算し、学習信号を決定的な分岐決定に集中させるSibling-GRPOを提案する。オフラインおよびオンラインデータセットにおける大規模な実験により、V-STARが最先端のベースラインを上回り、厳しいレイテンシ制約下で優れた精度と候補集合の多様性を実現することが実証された。
解放時間、段取り時間、および資格制約を伴う無関連並列機械スケジューリング問題(UPMSP)は、重要な多目的最適化課題を提起する。従来手法では総重量遅れ時間(TWT)と総段取り時間(TST)の最小化のバランスを取ることが困難である。本論文は、近接方策最適化(PPO)とグラフニューラルネットワーク(GNN)を用いた深層強化学習フレームワークを提案する。GNNはジョブ、機械、段取りの複雑な状態を効果的に表現し、PPOエージェントが直接スケジューリング方策を学習することを可能にする。多目的報酬関数に導かれたエージェントは、TWTとTSTを同時に最小化する。ベンチマークインスタンスによる実験結果は、提案するPPO-GNNエージェントが標準的なディスパッチングルールとメタヒューリスティックを大幅に上回り、両目的間の優れたトレードオフを達成することを示す。これは複雑な製造スケジューリングに対する堅牢で拡張性の高いソリューションを提供する。
AIテキスト検出器は、意味を保持しながら検出を回避する敵対的言い換え攻撃により、頑健性における重大な課題に直面している。本研究では、現実的な敵対的条件下での検出器の頑健性をストレステストする強化学習フレームワーク「StealthRL」を提案する。StealthRLは、Qwen3-4BにLoRAアダプターを組み合わせたGroup Relative Policy Optimization(GRPO)を用いて、複数検出器アンサンブルに対する言い換えポリシーを学習し、検出回避と意味保存のバランスを取る複合報酬を最適化する。セキュリティ上重要な1%偽陽性率の動作点において、3つの検出器ファミリー(RoBERTa、FastDetectGPT、Binoculars)に対して6つの攻撃設定(M0-M5)を評価した。StealthRLは、検出率をほぼゼロ(平均TPR@1%FPR=0.001)に抑え、平均AUROCを0.74から0.27に低下させ、99.9%の攻撃成功率を達成した。重要な点は、学習時に未経験の検出器ファミリーに対しても攻撃が転移し、検出器固有の脆弱性ではなく、アーキテクチャに共通する脆弱性が明らかになったことである。さらに、Likert尺度を用いたLLMベースの品質評価を実施し、検出器スコア分布を分析して回避成功の理由を説明し、ブートストラップ信頼区間付きの検出器別AUROCを提供する。我々の結果は、現在のAIテキスト検出における重大な頑健性のギャップを暴露し、StealthRLを原則に基づいた敵対的評価プロトコルとして確立する。コードと評価パイプラインはhttps://github.com/suraj-ranganath/StealthRL で公開されている。