HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

58 papers found

Gamma-World: 2人を超える生成的多エージェント世界モデリング
Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

May 27

ByFangfu Liu, Kai He, Tianchang Shen, Tianshi Cao, Sanja Fidler, Yueqi Duan, Jun Gao, Igor Gilitschenski, Zian Wang, Xuanchi Ren

156

インタラクティブな動画生成のためのワールドモデルは、主に単一エージェントの設定に焦点を当ててきました。そこでは将来の観測が単一の制御信号から生成されます。しかし、生成される環境の多くはマルチエージェントの相互作用を必要とします。つまり、複数のプレイヤー、ロボット、または身体化エージェントが共有空間内で同時に動作します。ワールドモデルをこのような設定に拡張するには、原理に基づいたマルチエージェント設計が必要です。エージェントは独立して制御可能であり、置換対称性を持ち、時間と視点にわたる一貫性を維持しながら効率的な推論をサポートする必要があります。本論文では、インタラクティブシミュレーションのための生成型マルチエージェントワールドモデルを提案します。このモデルは、Simplex Rotary Agent Encodingを導入します。これは3D RoPEのパラメータフリーな拡張であり、エージェントを回転角度空間における正則単体の頂点として表現します。これにより、各エージェントに異なる位相を与えつつ、すべてのエージェントを置換等価にし、学習されたスロット単位の識別子や固定されたエージェント順序なしにスケーラブルなエージェント識別を可能にします。エージェント間の密な全対全注意を回避するために、さらにSparse Hub Attentionを提案します。これは学習可能なハブトークンがエージェント間のトークン相互作用を仲介し、エージェント間の注意コストをエージェント数に対して2次から線形に削減します。リアルタイムロールアウトのために、フルコンテキストの拡散ティーチャーを因果的学生モデルに蒸留し、KVキャッシングを用いて時間ブロックを順次生成することで、24FPSでのアクション応答生成を実現します。マルチプレイヤー仮想環境での実験により、本モデルがスロットベースおよび密な注意ベースラインと比較して、映像忠実度、行動制御性、エージェント間一貫性を向上させ、追加学習なしで2人から4人への一般化を実現することを示します。

ProRL: 修正政策勾配推定によるプロアクティブ推薦のための効果的な強化学習
ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

May 27

ByHongru Hou, Tiehua Mei, Denghui Geng, Jinhui Huang, Ao Xu, Hengrui Chen, Jiaqing Liang, Deqing Yang

能動的推薦システム（PRS）は、中間推薦の経路を生成することで、ユーザーの嗜好推移を目標アイテムへと誘導することを目的としている。強化学習（RL）は、経路報酬が短期的な受容と長期的な誘導効果の両方を自然に捉えられるため、このような逐次的意思決定タスクを最適化するための原理的な枠組みを提供する。しかしながら、PRSに方策勾配法を単純に適用すると、勾配推定が不十分になる。我々は以下の2つの欠点を特定した：(1) 経路レベルの報酬が正の平均を持つステップレベルの報酬に分解されることで、長さ依存バイアスが生じ、勾配が意味のある探索よりも経路延長を優先させる。(2) 各ステップを経路レベルの報酬全体で重み付けすると、分解構造が無視され、勾配の分散が大きくなる。これらの2つの欠点を是正するために、我々は能動的推薦のための2つの新しいメカニズムを備えた効果的なRLフレームワークProRLを提案する。第一に、Stepwise Reward Centeringが期待報酬を差し引くことで長さ依存バイアスを中和し、経路延長が期待勾配信号をゼロにすることを保証する。第二に、Position-Specific Advantage Estimationが報酬の分解構造を活用してステップ依存のベースラインを計算し、勾配分散を低減する。これらのメカニズムにより、経路品質を正確にターゲットとする方策勾配が得られる。3つの実世界データセットを用いた実験により、ProRLが最先端のPRSを大幅に上回ることを実証した。コードはhttps://github.com/hongruhou89/ProRLで公開している。

マルチモーダルエージェント推論のためのエージェント探索的方策最適化
Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

May 27

ByMinki Kang, Shizhe Diao, Ryo Hachiuma, Sung Ju Hwang, Pavlo Molchanov, Yu-Chiang Frank Wang, Byung-Kwan Lee

拡張された推論を備えた視覚言語モデルは複雑な問題で成功を収めるが、多くの実世界の問題では内部推論だけでは解決できない外部ツールを必要とする。そのため、エージェント的推論は構造的不対称性を持つ二つの振る舞い、すなわち思考（自己完結型のデフォルト）とツール使用（高分散な補助的行動）をインターリーブする。我々はこの不対称性を思考-行動ギャップと呼ぶ。GRPOのような標準的な強化学習手法では、このギャップは訓練中に二つの診断的症状として現れる。すなわち、ツール使用はロールアウトの約30%でのみ試行され、試行された場合でも、グループ内のツール使用ロールアウトは質問の約40%で全問不正解となり、学習信号が必要とされるツール呼び出しの箇所で抑制される。我々はAXPO（Agent eXplorative Policy Optimization）を提案する。AXPOは、各全問不正解のツール使用サブグループに対し、思考プレフィックスを固定し、ツール呼び出しとその継続を再サンプリングし、それを不確実性に基づくプレフィックス選択と組み合わせる。9つのマルチモーダルベンチマークと3つの規模のQwen3-VL-Thinkingにおいて、SFT+AXPOは平均でSFT+GRPOを上回り（8Bで平均+1.8ppのPass@1、+1.8ppのPass@4）、8BのSFT+AXPOは32B BaseのPass@4を4分の1のパラメータで上回る。

ピクセルから言葉へ ― スケールでのネイティブなOne-Visionモデルを目指して
From Pixels to Words -- Towards Native One-Vision Models at Scale

May 27

ByHaiwen Diao, Jiahao Wang, Penghao Wu, Yuhao Dong, Yuwei Niu, Yue Zhu, Zhongang Cai, Weichen Fan, Linjun Dai, Silei Wu, Xuanyu Zheng, Mingxuan Li, Yuanhan Zhang, Bo Li, Hanming Deng, Huchuan Lu, Quan Wang, Lei Yang, Lewei Lu, Dahua Lin, Ziwei Liu

現在の視覚言語モデル（VLM）は、通常、画像エンコーダと言語デコーダを多段階のアライメントで接続するモジュール型フレームワークを採用しており、この構造ではフレーム間のピクセルレベルの信号が断片化され、初期段階でのピクセル-単語間の相互作用が散在するという問題が避けられない。一方、ネイティブVLMは単一画像での印象的な性能を示しているものの、マルチ画像や映像理解、空間知能の分野ではほとんど未開拓である。そこで我々は、外部エンコーダや補助アダプタ、後処理融合を一切用いずに、フレーム間およびピクセル-単語の対応関係をエンドツーエンドで学習するネイティブ基盤モデルNEO-ovを提案する。モジュール境界を完全に排除することで、NEO-ovはモデル内部にネイティブな形で細粒度かつ統一的な時空間モデリングを実現する。特筆すべきは、NEO-ovがモジュール型モデルとの性能ギャップを大幅に縮めつつ、細粒度の視覚知覚で優れた成果を挙げており、ネイティブな「ワンビジョン」アーキテクチャが大規模において実現可能かつ競争力を持つことを実証していることである。実証的性能に加え、我々は体系的なアーキテクチャ分析と詳細な訓練レシピを公開し、その後のネイティブマルチモーダルモデリングを促進する。コードとモデルはhttps://github.com/EvolvingLMMs-Lab/NEOで公開している。

双方向進化探索を用いた自己改善言語モデル
Self-Improving Language Models with Bidirectional Evolutionary Search

May 27

ByGuowei Xu, Zhenting Qi, Huangyuan Su, Weirui Ye, Himabindu Lakkaraju, Sham M. Kakade, Yilun Du

探索は、自己改善型言語モデルやエージェントシステムにおいて、ポストトレーニングサンプル生成と推論の両方で効果的な手法として提案されてきた。しかし、Best-of-Nサンプリングや木探索といった広く用いられる手法には、疎な検証信号によって導かれること、および主に自己回帰的拡張を通じて候補を構築するため、モデルの確率質量が大きい領域に探索が制限されるという、2つの根本的な限界がある。これらの課題に対処するため、我々は前方候補進化と後方目標分解を結合した探索フレームワークである双方向進化探索（Bidirectional Evolutionary Search, BES）を提案する。前方探索では、BESは標準的な拡張に進化演算子を追加し、部分軌跡を再結合することで、単一のモデルロールアウトからは得難い候補を生成する。後方探索では、BESは元のタスクを検証可能なサブゴールに再帰的に分解し、前方探索を導く密な中間フィードバックを生成する。理論的な動機付けとして、拡張のみの探索で生成される候補は狭いエントロピーシェルに閉じ込められるのに対し、進化演算子はそこから脱出可能であること、また後方探索は正解を見つけるのに必要なサンプル数を指数関数的に削減できることを示す。実験では、主流のポストトレーニングアルゴリズムが改善に失敗する困難なポストトレーニングタスクにおいて、BESは一貫した改善を達成し、また推論時における3つのオープンな問題解決ベンチマークにおいて、BESは既存のオープンソースフレームワークを平均性能および最良性能の両方で上回る。コードと学習済みモデルはhttps://github.com/Embodied-Minds-Lab/BESで公開されている。

ResearchMath-14K: エージェントによる研究レベルの数学のスケーリング
ResearchMath-14K: Scaling Research-Level Mathematics via Agents

May 27

ByGuijin Son, Seungyeop Yi, Minju Gwak, Hyunwoo Ko, Wongi Jang, Youngjae Yu

数学の最前線は未解決問題によって定義されるが、言語モデルが人間の介入なしにそのような問題に有意義に取り組めるかは依然として不明である。大きな障壁の一つは、大規模な研究レベルの数学データセットが存在しないことである。この目的のために、我々はResearchMath-14kを導入する。これは、マルチエージェントパイプラインを介して学術ソースから収集された14,056問の問題からなるデータセットであり、研究レベルの数学問題のコレクションとしては現在最大規模である。さらに、ResearchMath-Reasoning（2つのオープンモデルからの220Kの教師軌跡）を生成し、その中で、未着手や捏造された参考文献といった頻発する回避行動を観察した。興味深いことに、8つのオープンウェイトモデルにおいて、新しい世代のモデルは軌跡あたり5.6倍多くの参考文献と5.0倍多くの偽の参考文献を生成する。ResearchMath-Reasoningのエージェンティックフィルタリング後、4Bから30BパラメータのQwen3モデルをファインチューニングすると、ベースモデルに対して平均9.2ポイントの改善が得られた。これは、完全に正しい推論軌跡がなくても、フィルタリングされた未解決問題への試みが有用な教師信号を提供できることを示している。我々はResearchMath-14kを公開し、研究レベルの数学的推論に関する将来の研究に供する。

DenoiseRL: ノイズのあるプレフィックスからの回復に向けた推論モデルのブートストラップ
DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

May 27

ByCaijun Xu, Changyi Xiao, Zhongyuan Peng, Yixin Cao

強化学習は大規模言語モデルの推論能力を向上させるための中心的なパラダイムとなっているが、既存の手法の多くは依然としてより強力な教師モデルや厳選された難易度の高いデータセットに依存しており、スケーラブルな能力向上が制限されている。本論文では、弱いモデルによる失敗を回復志向の最適化に変換することで、外部からの教師信号を代替する強化学習フレームワーク「DenoiseRL」を提案する。DenoiseRLは、より強力な教師信号や注意深く設計されたデータに依存する代わりに、誤った推論の軌跡から直接学習し、それらを改善の機会に変換することで、よりスケーラブルで外部リソースへの依存度が低い訓練を実現する。これにより、より豊かで多様な学習信号が得られ、不完全なモデル行動からの探索効率が向上する。結果として、DenoiseRLは高コストなデータキュレーションや強力な教師モデルの必要性を低減しつつ、推論性能と全体的な訓練効率を改善する。実験的には、DenoiseRLは競争力のある数学・一般推論ベンチマークにおいて、強力なon-policy強化学習ベースラインを一貫して上回り、訓練難易度が増すにつれてより強力な自己修正行動を促進する。これにより、大規模言語モデルの推論改善に向けた効果的かつスケーラブルな代替経路が示される。

GEM: 生成的監督が身体化知能を支援する
GEM: Generative Supervision Helps Embodied Intelligence

May 27

ByRuowen Zhao, Bangguo Li, Zuyan Liu, Yinan Liang, Junliang Ye, Fangfu Liu, Diankun Wu, Zhengyi Wang, Xumin Yu, Yongming Rao, Han Hu, Jun Zhu

具現化視覚言語モデル（VLM）は、特に視覚言語行動フレームワークにおいて、ロボティクス分野で顕著な性能と汎化能力を示している。しかしながら、標準的なテキスト誘導型事前学習パラダイムが重視する高次元の意味的焦点と、具現化環境での実行に不可欠な低次元の空間的・物理的知識との間には、依然として大きな乖離が存在する。本論文では、この乖離を埋めるために設計された生成型教師付き具現化視覚言語モデルGEMを紹介する。我々は、深さマップ生成タスクをVLMの事前学習フェーズに直接統合することを提案する。この生成目的を主モデルと共に訓練することにより、具現化知能に substantial な改善が見られ、意味理解と物理操作能力の両方が大幅に向上することを確認した。このパラダイムを支援するため、我々は高品質な深さ教師データと組み合わせたグラウンディング、推論、計画データの混合を含む大規模データセットGEM-4Mを厳選し公開する。広範な実験により、GEMは多様な具現化ベンチマークで最先端の成果を達成することを示す。さらに、我々が展開した行動モデルGEM-VLAは、シミュレーション環境と実世界評価の両方で極めて優れたタスク実行能力を示す。コード、モデル、データセットはhttps://zhaorw02.github.io/GEM/で公開されている。

MemTrace: 大規模言語モデルのメモリシステムにおけるエラーの追跡と帰属
MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

May 27

ByXinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang

メモリは、大規模言語モデルが長期的な推論を可能にするために不可欠であるが、既存のメモリシステムは信頼性が低く、デバッグが困難なままである。メモリの動的な進化を追跡することは、情報が時間の経過とともにどのように統合され、伝播され、または破損されるかを理解するために極めて重要である。本研究では、LLMメモリシステムにおけるエラーの追跡と帰属という新しい問題を研究する。我々は、メモリパイプラインを実行可能なメモリ進化グラフに変換し、操作上の情報フローの細粒度な追跡を可能にする新しいフレームワークを提案する。次に、Long-Context、RAG、Mem0、EverMemOSなどの代表的なメモリシステムから収集したベンチマークであるMemTraceBenchを構築し、メモリの障害モードを体系的に研究する。さらに、操作サブグラフを反復的に追跡して任意の失敗ケースの根本原因を特定する自動帰属手法を導入する。我々の分析により、メモリ障害は体系的であり、情報損失や検索の不一致などの操作レベルの問題に起因することが明らかになった。重要なことに、我々はこれらの細粒度の帰属シグナルを活用して下流のプロンプト最適化を導き、障害を自動的に修正し、最終タスクのパフォーマンスを最大7.62%向上させる閉ループシステムを確立する。コードは https://github.com/zjunlp/MemTrace で公開される予定である。

弱点から学ぶ：小規模コンピュータ利用エージェントのための自動ドメイン特化
Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

May 27

BySuji Kim, Kangsan Kim, Sung Ju Hwang

コンピュータ利用エージェント（CUA）は近年、大きな進歩を遂げているが、各ソフトウェアドメインごとに個別の大規模専門エージェントを展開するには依然としてコストがかかる。小型のオープンコンピュータ利用エージェントは、より実用的な特化対象であるが、性能が著しく劣り、ドメイン固有の失敗が不均一に発生するという課題がある。単純な対策として、対象ドメイン向けの大規模な訓練データを合成することが考えられるが、この単純なアプローチではわずかな改善しか得られないことが判明した。この観察に基づき、我々はLearnWeakを提案する。これは、より強力な参照エージェントを活用して、対象ドメインにおける生徒エージェントの弱点を特定し、目標タスクを合成し、教師信号を自動的に構築する、アノテーションフリーの小型コンピュータ利用エージェント特化フレームワークである。LearnWeakはさらに、エラー認識型特化目的関数を導入し、計画エラーと実行エラーを分離することで、一律の教師信号を用いる場合よりも行動的に精密な更新を可能にする。OSWorldにおいて、LearnWeakは8つのドメインにわたり、EvoCUA-8BおよびOpenCUA-7Bに対してそれぞれ平均11.6ポイントおよび11.1ポイントの向上を達成した。また、我々が提案する生徒認識型のデータセット生成および訓練手法が、既存の自律軌跡生成および訓練ベースラインを上回ることを検証した。本研究は、データ合成とエージェント訓練の両方において生徒認識の重要性を強調し、多様なドメイン向けに小型コンピュータ利用エージェントを特化させるための、より原則的かつ効率的な道筋を示すものである。

ScientistOne: 証拠連鎖による人間水準の自律的研究に向けて
ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

May 25

ByRui Meng, Bhavana Dalvi Mishra, Jiefeng Chen, Chun-Liang Li, Palash Goyal, Mihir Parmar, Yiwen Song, Yale Song, Rajarishi Sinha, Parthasarathy Ranganathan, Burak Gokturk, Jinsung Yoon, Tomas Pfister

自律型研究エージェントは競争力のある解決策と専門的な論文原稿を生成するが、その出力には表面的な評価では検出不可能な検証可能性の欠陥（捏造された引用、再現不可能なスコア、実装と乖離した手法の記述）が含まれている。我々は3つの貢献によりこれに対処する。第一に、エビデンス連鎖（Chain-of-Evidence, CoE）——各主張がその根拠ソースまで追跡可能であることを要求する検証可能性フレームワーク。第二に、ScientistOne——文献レビュー、解決策の発見、論文執筆にわたって、構築上エビデンス連鎖を維持するエンドツーエンドの自律型研究システム。第三に、CoE監査（CoE Audit）——スコア検証、仕様違反、参考文献検証、手法・コード整合性の4つの整合性チェックをすべてのシステムに一律に適用する事後監査。5つのシステムと5つの最先端研究タスクにわたる75本の論文において、すべてのベースラインが少なくとも1つの体系的な障害モードを示す：捏造された参考文献の割合は21％に達し、スコア検証の合格率はわずか42％、手法・コード整合性は20％から80％の範囲である。ScientistOneは捏造された参考文献ゼロ（0/337）、完璧なスコア検証（12/12）、最も高い手法・コード整合性（14/15）を達成し、5つのタスクすべてにおいて人間専門家の性能に匹敵またはそれを上回る。さらにScientistOneは、医用画像、細粒度認識、3D知覚、言語モデリングにわたる6つの追加タスクに一般化し、Parameter Golfで最先端を達成し、ベースラインが完全に失敗するMLE-Benchタスクで金メダルを獲得する。

AI研究エージェントによる科学探求の絞り込み
AI Research Agents Narrow Scientific Exploration

May 27

ByYixuan Tang, Yi Yang

AI研究エージェントは現在、研究アイデアの生成、実験の設計、コードの実行、論文の草稿作成が可能であり、大規模なAI支援による科学的発見の可能性を高めている。現在の多くのエージェントフレームワークは、新規性が高くインパクトのあるアイデアの生成を明示的に促進している。しかし、AI支援によるアイデア創出が科学的探求を広げるのか、それとも主に既存の研究に集中するのかは依然として不明である。我々はAI研究エージェントを科学的探索システムとして研究する。4つのAI研究エージェントフレームワークと6つの大規模言語モデルを用いて、AIと機械学習における引用定義された研究領域の共有シード文献から37,802件の科学アイデアを生成する。次に、得られたAIアイデアを、同じ研究領域の人間による論文、同じシード文献から生まれたその後の人間の研究、およびシード文献自体と比較する。実験を通じて、4つの一貫したパターンが明らかになった。第一に、AI生成アイデアは同じ研究領域の人間による論文よりもはるかに集中している。第二に、AI生成アイデアは、その後の人間によるフォローアップ研究よりも、出発点の文献にかなり近いままである。第三に、AI生成アイデアに最も類似した論文は、その後の被引用数が低い傾向にある。第四に、AI生成アイデアが先行研究と異なる場合、その違いは主に既存の技術的手法の再結合に起因し、根本的に新しい研究課題を導入するものではない。全体として、現在のAI研究エージェントは、科学的探求を広げるよりも、局所的な精緻化に適しているように思われる。

記憶を継続的に進化する接続性として再考する
Rethinking Memory as Continuously Evolving Connectivity

May 27

ByJizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang

既存のメモリ拡張型LLMエージェントは、多くの場合、メモリを静的なリポジトリとして扱い、事前定義された表現と固定された検索パイプラインに依存している。しかし、フィードバック、タスクの多様性、異種シグナルが記憶すべき内容とその結びつき方を絶えず変化させる動的なエージェント環境において、このアプローチは脆弱である。この課題に対処するため、我々はFluxMemを提案する。これは、メモリを異種グラフとしてモデル化し、そのトポロジを3つの段階（初期接続形成、フィードバック駆動による洗練、長期統合）を通じて漸進的に洗練する、接続性進化型メモリフレームワークである。実行中、FluxMemは欠落したリンクを修復し、干渉を除去し、抽象化の粒度を調整し、反復的な成功軌跡を再利用可能な手続き回路へと蒸留する。これらは、メモリの汎化性と進化的成熟度を測る単一の指標に導かれて行われる。LoCoMo、Mind2Web、GAIAという3つの根本的に異なるベンチマークにおいて、FluxMemは一貫して最先端の性能を達成し、複雑なエージェント環境における強力な適応性と汎化性を示した。コードはhttps://github.com/zjunlp/LightMemで公開予定である。

トリプレットブロック拡散RWKV
Triplet-Block Diffusion RWKV

May 25

ByKe Lin, Yiyang Luo, Zhaolong Su, Yunya Song, Anyi Rao

因果Transformer言語モデルは、厳密に逐次的なデコードと、ステップあたり二次のアテンションコストを伴う。線形時間因果モデルと離散拡散モデルはそれぞれこれらの弱点に対処するが、それらの統合は本質的に矛盾をはらむ。拡散は双方向アテンションを必要とする一方、因果モデルは単方向であるからだ。これらのアーキテクチャを統一するため、我々はB^3D-RWKVを提案する。これは、RWKVのO(L)推論効率と、トリプレットブロックレイアウト法による並列双方向離散拡散を統合した拡散RWKV変種である。B^3D-RWKV-7.2Bは、8タスクのスイートにおいて既存モデルと同等の精度を達成しつつ、デコードスループットではベースラインを大幅に上回り、平均1.6倍の高速化を実現する。

SkillGrad: 勾配降下法のようにエージェントスキルを最適化する
SkillGrad: Optimizing Agent Skills Like Gradient Descent

May 26

ByHanyu Wang, Yifan Lan, Bochuan Cao, Lu Lin, Jinghui Chen

エージェントスキルは、再利用可能な手続き的知識を構造化されたファイルに保存することで、LLMエージェントを専門領域に適応させる軽量な手法を提供する。しかし、第三者が提供するものや自己生成されたものであっても、これらのスキルは信頼性が不十分であったり、不完全であったり、古くなっていることが多い。既存のスキル進化手法は、明示的な最適化定式化なしにヒューリスティックな省察を通じてこれらの欠点に対処することが多い。本稿では、エージェントスキルを最適化するための勾配降下に着想を得たフレームワーク、SkillGradを提案する。SkillGradはスキルパッケージを一種の構造化パラメータとみなし、勾配降下法に類似した方法で最適化する。すなわち、タスク実行が軌跡レベルの損失証拠を提供し、自動診断が修正方向を示すテキストベースの勾配を生成する。反復をまたぐ最適化を安定させるために、モーメンタムエージェントが繰り返し現れる診断パターンを永続的なメモリオーバーレイに蓄積する。最後に、LLMベースのパッチャーがスキルパッケージに対してレイヤーを考慮した編集を適用し、パラメータ更新を実行する。SpreadsheetBench VerifiedおよびWikiTableQuestionsで評価したところ、SkillGradは2つのバックボーンLLMにわたって訓練ベースのスキル進化ベースラインを一貫して上回り、最も強力な訓練ベースのベースラインと比較して平均6.7パーセントポイントの改善を示した。さらにアブレーション研究により、モーメンタムと対比的診断の両方が最終的なスキル品質に寄与することが示された。

OSP-Next: スパース系列並列処理、HiF8量子化、および強化学習を用いた効率的な高品質動画生成
OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

May 27

ByYunyang Ge, Xianyi He, Zezhong Zhang, Bin Lin, Bin Zhu, Xinhua Cheng, Li Yuan

ディフュージョントランスフォーマーは高品質な動画生成を実現するが、フルアテンションの二次コストが効率を制限する。本稿では、スパースアテンション、並列処理、量子化、強化学習を統合した効率的なテキスト-to-動画生成モデルOSP-Nextを紹介する。OSP-Nextはハイブリッドなフルスパースアテンションアーキテクチャを採用し、スパース成分はSkiparse-2D Attentionで実装される。この固定パターンメカニズムは、空間次元に沿ってトークン単位およびグループ単位のスパースアテンションを適用し、局所性を活用しつつFlashAttentionカーネルとのネイティブ互換性を維持する。Skiparse-2D Attentionにおける再配置の局所等価性に基づき、サブシーケンスをランク間で分割し、単一のAll-to-All通信でスパースパターンを切り替えるSparse Sequence Parallelism (SSP)をさらに提案する。Ulysses Sequence Parallelism (SP)と比較して、SSPはスパースアテンションに対するネイティブな並列戦略を提供し、通信量を75%削減する。OSP-Nextはまた、8ビット量子化とスパースファインチューニングによる安定したジョイントトレーニングを可能にするHiF8量子化を組み込み、スパースモデルの性能向上のためにMix-GRPO後処理トレーニングを適用する。実験により、OSP-NextはVBench総合スコア83.73%を達成し、Wan2.1ベースラインを上回ることが示された。5秒720Pおよび5秒768P設定において、OSP-NextはNVIDIA H200 GPU上で最大1.64倍の単一GPU高速化と1.52倍以上の8GPU高速化を達成する。さらに、VBench総合スコアのわずか0.4%低下で、OSP-Next-HiF8は単一のAscend 950PR上で2つの設定において1.69倍および2.27倍の高速化を達成し、ハードウェアプラットフォームを横断したOSP-Nextの効率と性能を実証している。

GUI-CIDER: 因果的内在化と密度認識事例再選択によるGUIエージェントの中間訓練
GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

May 27

ByZheng Wu, Chengcheng Han, Zhengxi Lu, Tianjie Ju, Yanyu Chen, Qi Gu, Xunliang Cai, Zhuosheng Zhang

尽管多模态大语言模型在构建图形用户界面（GUI）代理方面取得了快速进展，但其在真实世界中的任务完成能力从根本上受到缺乏GUI操作世界知识的瓶颈限制。现有解决方案通常依赖昂贵的多代理框架或传统的后训练范式，如监督微调（SFT）和强化学习（RL）。然而，后训练仅允许代理通过动作标注或奖励信号隐式吸收世界知识，导致低效的轨迹记忆而非真正理解。因此，亟需一种能够显式学习此类知识的方法。为此，我们提出GUI-CIDER，一种通过因果内化与密度感知的示例重选来显式内化GUI世界知识的中间训练方法。GUI-CIDER包含三个阶段：（1）数据合成——从GUI轨迹中提炼静态规划知识与动态因果知识，并将其转化为文本；（2）示例重选——通过奖励因果结构并惩罚语义冗余来筛选语料库；（3）中间训练——利用精炼后的数据嵌入所习得的知识。在两个GUI知识基准和三个任务完成基准上的大量实验表明，GUI-CIDER持续提升了代理对GUI操作的理解能力及其任务成功率。代码已开源至 https://github.com/Wuzheng02/GUI-CIDER。

バランスよ永遠なれ：情報ボトルネック駆動の木ベース方策最適化
Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

May 27

ByHao Jiang, Shurui Li, Tianpeng Bu, Bowen Xu, Xin Liu, Qihua Chen, Hongtao Duan, Lulu Hu, Bin Yang, Minying Zhang

大規模言語モデル（LLM）向けオンライン強化学習（RL）の最近の進歩は、複雑な推論タスクにおいて有望な性能を示している。しかしながら、それらはしばしば探索と活用のトレードオフにおいて不均衡を示し、その結果、不安定な最適化と準最適な性能をもたらす。我々は、情報ボトルネック理論に基づく新しい指標であるIB-Scoreを導入する。これは、ステップレベルの推論多様性と正解と共有される相互情報量の間のトレードオフを定量化することにより、方策の探索と活用のバランスを評価する。IB-Scoreに基づく分析は、一般的な正則化器を用いた一般的なオンラインRL手法（例：GRPO）が、訓練中に一貫してバランスを維持できず、準最適な結果に至ることを示している。これに対処するため、我々は情報ボトルネック駆動型木構造方策最適化（IB-TPO）を提案する。これは、IB-Scoreを細粒度の最適化目的として定式化する原理的なフレームワークであり、新たなIB誘導木構造サンプリング戦略を利用する。この戦略は、同じトークンバジェットの下で50%多い軌道を用いてオンラインサンプリングの効率を向上させるだけでなく、木構造を再利用して効果的なIB-Scoreのモンテカルロ推定を行う。標準ベンチマークにわたる広範な実験により、我々の手法がGRPOベースラインを2.9%から3.6%上回り、他の最先端のオンラインRL手法も凌駕することを示している。我々のコードは以下で入手可能である: https://github.com/alibaba/EfficientRL

Fast-dDrive: 自動運転のための効率的なブロック拡散VLM
Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

May 25

ByKewei Zhang, Jin Wang, Sensen Gao, Chengyue Wu, Yulong Cao, Songyang Han, Boris Ivanovic, Langechuan Liu, Marco Pavone, Song Han, Daquan Zhou, Enze Xie

Vision-Language-Action（VLA）モデルによるエンドツーエンド自動運転は、高忠実度の軌道計画と効率的な推論の間で微妙なバランスを取る必要がある。既存のパラダイムは一般的に不十分である。すなわち、自己回帰（AR）型VLAはエッジハードウェア上でメモリ帯域幅に制約され、露出バイアスによるドリフトを起こしやすい。一方、全系列拡散モデルはKVキャッシュの再利用を排除し、「知覚→計画」という基本的な因果関係に違反する「論理的漏洩」を被る。本稿では、セマンティック単位内で双方向洗練を実行しつつ、それらの間で厳密な因果順序を強制するブロック拡散VLAであるFast-dDriveを提案する。運転用VLAが構造化JSON風出力を生成することが多いという観察に基づき、Fast-dDriveは構造トークンをセクションスキャフォールドに固定し、安全重要計画を優先するセクション認識型訓練レシピを採用する。さらに、ARと同等の品質を大幅に高いスループットで達成するスキャフォールド投機デコードを導入する。最後に、低オーバーヘッドなテスト時スケーリング手法を提案する。すなわち、単一の共有プレフィックスKVキャッシュからN個の確率的軌跡ロールアウトをフォークし、それらを平均することで、ごくわずかな計算コストで予測分散を効果的に抑制する。実験結果は、Fast-dDriveが運転エージェントの速度-精度フロンティアを再定義することを示す。WOD-E2Eテストセットにおいて、Fast-dDriveはSOTAのADE@3sおよびADE@5sを達成し、拡散ベースVLAの中で最高のRFSを記録する。nuScenesでは、平均L2誤差を0.32m（22%改善）に低減する。SGLangと統合した場合、本フレームワークはARベースライン比12倍のスループット高速化を実現し、高容量VLAと実車載リアルタイム展開の効率要求との間のギャップを縮める。

あなたのエージェントも経年劣化する：実運用システムのためのエージェント寿命設計
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

May 25

ByJianing Zhu, Yeonju Ro, John Robertson, Kevin Wang, Junbo Li, Haris Vikalo, Aditya Akella, Zhangyang Wang

長期稼働するAIエージェントは、持続的な運用システムとしてますます導入されているが、依然として初期化直後のモデルのように評価されている。導入初日のベンチマークでは、基本的なシステム上の疑問が見過ごされている。すなわち、エージェントは導入後どの程度の期間、信頼性を維持できるのかという点である。モデルの重みが固定されていても、エージェントの実効状態は、対話履歴の圧縮、拡大する記憶ストアからの検索、更新後の事実修正、定期的なメンテナンスを通じて常に変化し続ける。したがって、信頼性はベースモデルのスナップショット特性だけでなく、エージェント全体のハーネスの寿命特性となる。本稿では、エージェントの寿命工学のための縦断的信頼性ベンチマークであるAgingBenchを提案する。これは、導入されたエージェントが劣化するかどうかだけでなく、劣化の形態と修復の標的部位を測定するものである。AgingBenchは、エージェントの経年劣化を4つのメカニズム、すなわち圧縮劣化、干渉劣化、修正劣化、メンテナンス劣化に分類する。これらの故障を診断するため、AgingBenchは時間的依存関係グラフと対になった反事実的プローブを用いて、メモリパイプラインの書き込み、検索、利用の各段階に対する診断プロファイルを生成する。7つのシナリオ、14のモデル、複数のメモリポリシー、ランナー制御エージェントと自律エージェントの両方にわたる、8〜200セッションに及ぶ約400回の実行から、エージェントの経年劣化は一元的ではないことが示された。行動テストは良好なままでも事実の正確性が低下することがあり、導出状態追跡は単一モデル内で急激に崩壊することがあり、同一の誤った回答でも診断プロファイルの示す内容によって異なる修復が必要となる。これらの結果は、信頼性の高いエージェント導入には、初日のモデル強化だけでなく、寿命評価、メカニズムレベルの診断、段階に応じた修復が必要であることを示唆している。

GE-Sim 2.0: ロボット操作のための包括的なクローズドループビデオワールドシミュレータへのロードマップ
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26

ByBoxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren

GE-Sim 2.0（Genie Envisioner World Simulator 2.0）を紹介する。これは、ロボット操作のための閉ループ型ビデオワールドシミュレータである。Genie Envisionerの行動条件付きビデオ生成フレームワークを基盤とし、GE-Sim 2.0は、遠隔操作、接触を伴うインタラクション、ロボット上でのポリシー展開にわたる数千時間の実世界ロボットデータで再学習され、行動追従の忠実性と軌跡カバレッジを大幅に改善した。この基盤の上に、ビデオシミュレーションからポリシー学習へのループを閉じる3つの新モジュールを追加する。すなわち、ビデオ潜在表現から固有受容状態を復号し、下流のVLAポリシーによる次チャンク予測を支援する状態エキスパート、生成されたロールアウトをタスク指示に照らしてスコアリングし、手動検査に代わる機械検証可能な成功信号と報酬を提供するワールドジャッジ、そして単一のH100上で2.3秒で25フレームのロールアウトを生成し、長期的評価のために推論時に最大4倍のフレームスキップを可能にする高速化フレームワークである。わずか2Bパラメータで、GE-Sim 2.0は公開のWorldArenaリーダーボードでトップとなり、専用のロボットワールドモデルやクローズドソースの汎用ビデオ生成器を凌駕し、そのロールアウトと報酬に対して訓練されたポリシーは、測定可能な実世界での利得に変換され、GE-Sim 2.0を操作ポリシーのスケーラブルな評価と閉ループ学習のための実用的プラットフォームとして確立する。

スパースオートエンコーダからのモデル内部情報を用いたLLM事後学習データエンジニアリングの誘導
Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

May 26

ByYi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang

モデル内部には、大規模言語モデル（LLM）が訓練データを処理する方法に関する豊富な情報が符号化されている。しかし、訓練後のデータエンジニアリングは主に外部シグナルに依存しており、モデル内部に存在する豊富な内在的シグナルを無視している。本稿では、LLMの強化学習（RL）のためのデータエンジニアリングフレームワークであるSAERLを提案する。SAERLは、高度なメカニスティック解釈可能性ツールであるスパースオートエンコーダ（SAE）を用いて抽出されたモデル内部表現を活用し、多様性、難易度、品質という3つの内在的データ特性をモデル化する。各特性は具体的なデータエンジニアリング操作に基づいている。すなわち、バッチ多様性制御のための適度なバッチ混合を伴うSAE空間でのクラスタリング、簡単から難しいカリキュラム順序付けのための難易度プロキシ、データフィルタリングのための品質プローブである。SAERLは、ベースラインのGRPOと比較して平均精度を3.00%向上させ、Qwen2.5-Math-1.5Bにおいて20%少ない訓練ステップで目標精度に到達し、モデル規模やRLアルゴリズムを問わず一貫した改善を示す。実験結果は、SAEがモデルファミリや規模を越えて効果的に転移し、軽量で再利用可能なデータエンジニアリングツールとして機能することを示している。これらの結果は、モデル内部が訓練後のデータエンジニアリングにとって強力かつ実用的なシグナル源であることを実証している。

LiveBrowseComp: 検索エージェントは検索しているのか、それとも既知の情報を検証しているだけなのか？
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

May 27

ByHuiMing Fan, Xiao Wang, Zheng Chu, Qianyu Wang, Zhuoyao Wang, Ming Liu, Bing Qin, XingYu

LLMベースの検索エージェントは本当に検索を行っているのか、それとも既に知っていることを検証するためにウェブを利用しているのか。本稿では、BrowseComp上で3つの診断的手法を用いてこの問題を研究する。分析の結果、内在的知識依存（IKD：Intrinsic Knowledge Dependence）が明らかになった。すなわち、ツールにアクセスできる場合でも、エージェントは外部の証拠よりも、検索前にモデルに符号化された情報である内在的知識に依存することが多い。エージェントはBrowseCompの質問の最大44.5%をツールなしで回答し、検索クエリの半数以上を検索結果から得た手がかりではなく、内部で生成した仮説に基づいて生成し、回答を裏付ける証拠が除去された場合には、閉じた書籍ベースのベースラインよりも性能が低下する。これらの結果は、静的な検索ベンチマークが、証拠に基づく発見ではなく、記憶に基づく検証を報酬として与える可能性があり、エージェントが既に知っていることと見つけられることを混同していることを示唆する。そこで我々は、内在的カバレッジを超えたエージェントを評価するために設計された深層検索ベンチマークであるLiveBrowseCompを導入する。これには、ベンチマーク構築前の90日以内に公開された事実に依存する回答を持つ、335の人間が作成した質問が含まれており、6つの更新された情報源から抽出され、世界的に顕著なイベントを除外するようフィルタリングされている。LiveBrowseCompでは、評価されたすべてのエージェントの閉じた書籍ベースの正解率は2%未満であり、検索拡張によるスコアはBrowseCompと比較して25～40ポイント低下し、以前のモデルランキングはもはや性能を確実に予測しない。LiveBrowseCompはhttps://huggingface.co/datasets/Forival/LiveBrowseCompで入手可能である。

HRBench: ハイブリッド推論LLMにおける思考モード切り替え戦略のベンチマーキングと理解
HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs

May 27

ByYansong Ning, Mianpeng Liu, Jingwen Ye, Weidong Zhang, Hao Liu

ハイブリッド推論大規模言語モデル（LLM）は、推論労力に対する明示的な制御を提供し、ユーザーやシステムが回答品質と推論コストのトレードオフを図ることを可能にする。しかし、適応的思考モード選択に関する既存の手法は、通常、異なるモデル、データセット、実装前提の下で評価されているため、それらの実用的な振る舞いを比較することは困難である。本稿では、ハイブリッド推論LLMにおける思考モード切り替えを研究するための統合評価フレームワークであるHRBenchを紹介する。HRBenchは、設計空間を2つの軸に沿って整理する。すなわち、3つの切り替え戦略ファミリ（プロンプトベース選択、外部ルーティング、投機的実行）と、4つの訓練手法（訓練不要、SFT、オフラインRL、オンラインRL）であり、これにより12の制御された評価設定が得られる。我々はこれらの設定を、Qwen3.5-2BからKimi-K2.5-1.1Tまでの6つのLLMと、数学、科学、コードをカバーする5つの推論ベンチマークにわたって評価し、同時に同一パイプライン内で12以上の代表的な既存手法を再実装する。分析により、異なる切り替え戦略がどのように異なる有効性と効率のトレードオフ領域を占めるかが明らかになった。すなわち、プロンプトベース手法は多くの場合、トークンと精度のトレードオフにおいて有利であり、ルーティング手法はより安定したコスト削減を提供し、投機的手法はより高いトークンコストで精度を向上させる傾向がある。さらに、訓練が戦略に異なる影響を与えること、および好ましい戦略がモデル規模とタスクドメインによって異なることが分かった。HRBenchは、ハイブリッド推論LLMにおける効率的な推論に関するより制御された研究を支援するために、リファレンス実装と統合評価プラットフォームを提供する。我々のデータ、コード、リポジトリは https://github.com/usail-hkust/HRBench で公開されている。

Less is More: オンポリシー蒸留のための早期停止ロールアウト
Less is More: Early Stopping Rollout for On-Policy Distillation

May 26

ByZhou Ziheng, Jiaqi Li, Huacong Tang, Ying Nian Wu, Demetri Terzopoulos

近年、オン・ポリシー蒸留が、従来のシーケンスレベルの模倣学習に代わる有望な手法として浮上しており、教師モデルを用いて学生自身のロールアウトをスコアリングすることで学生を訓練する。しかしながら、我々はこのパラダイムにおいて「オフ・ポリシー教師減衰」問題を観察する。すなわち、後続のトークンでは、学生の過去の軌跡が教師にとってオフ・ポリシーな文脈となるため、教師が修正的なスコアを生成する能力が減衰し、事前学習段階で学習されたトークン補完行動に後退してしまう可能性がある。我々はこの問題を実験的に検証し、その解決策として早期停止ロールアウト（ESR）を提案する。これは、ロールアウト生成を最初の応答トークンに限定するという単純だが効果的な蒸留戦略である。我々は、ESRがモデルサイズ、モデルファミリー、タスク、訓練設定を横断して、完全ロールアウトOPDの性能を上回ること、さらに、特に異なるモデルファミリー間のシナリオにおいて、はるかに高いGPU効率と訓練安定性を示すことを明らかにする。我々はさらに、この驚くべき性能の背後にあるメカニズムを調査し、ESRの「カスケード調整」効果と「サブモードコミットメント」効果を発見した。これらの効果は、ESRが効果的に機能し、時には教師モデルの性能を上回る理由を説明する可能性がある。加えて、我々はこの位置に基づくトークン選択戦略がKLダイバージェンスとエントロピー信号だけでは完全に説明できないことを示す。

記憶方法の再考：生涯学習LLMエージェントメモリにおける原子的事実を超えて
Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory

May 19

ByJingwei Sun, Jianing Zhu, Jiangchao Yao, Tongliang Liu, Bo Han

信頼性の高い長期的な対話を実現するためには、LLMエージェントが蓄積された対話履歴を忠実に保存し、効率的に検索し、深く推論できるメモリシステムが必要である。既存の手法のほとんどは、抽出された事実に基づくパラダイムを採用している。すなわち、手作りの静的プロンプトが生の対話を原子的な事実に圧縮し、それらを保存、照合、そして下流の推論に注入する。しかしながら、このような事実中心の設計は、元の対話における詳細な情報を必然的に捨て去り、散在する孤立した事実に基づく深い推論を支援できない。さらに、静的プロンプトは多様な対話スタイルにわたって一貫した抽出粒度を維持できない。これらの限界に対処するため、我々はTriMemを提案する。これは、保存の忠実性のためにソース識別子で固定された生の対話セグメント、効率的なメモリ検索のための抽出された原子的事実、そして深い推論のために分散した事実を統合して全体的な意味理解を実現する合成プロファイルという、三つの共存する表現粒度を維持する。さらに、我々はTextGradベースのプロンプト最適化を採用する。これは、応答品質のフィードバックを介して抽出プロンプトとプロファイリングプロンプトを反復的に改善し、パラメータ更新なしで生涯にわたる進化を実現する。LoCoMoおよびPerLTQAにおける複数のLLMバックボーンにわたる広範な実験により、TriMemが強力なメモリベースラインを一貫して上回ることが示された。コードはhttps://TMLR-TriMem.github.ioで入手可能である。

サンプリングにおける迷い：単語カバレッジスコア（WCS）によるLLMの語彙到達可能性の評価
Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

May 26

BySamer Awad, Javier Conde, Carlos Arriaga, Tairan Fu, Javier Coronado-Blázquez, Pedro Reviriego

現代の大規模言語モデル（LLMs）は、膨大な潜在語彙を有しているにもかかわらず、反復的で均質なテキストを生成することでしばしば批判されている。従来の研究はモデルの知識や訓練データに焦点を当ててきたが、我々は言語的多様性を抑制する復号メカニズムの役割を調査する。我々は、文脈に適した人間の語彙が標準的なサンプリングフィルター（例：Top-p、Top-k、Min-p）によって数学的に刈り込まれる程度を定量化する指標である単語カバレッジスコア（WCS）を導入する。静的な知識を評価するのではなく、WCSはサンプリングパラメータの関数として、低頻度で高情報量の人間の単語の語彙生存率を測定する。オープンウェイトモデルを人間作成のコーパス断片で監査することにより、確率空間内に存在していても復号器によって到達不可能にされる論理的語彙選択を特定する。我々の結果は、業界標準のサンプリングデフォルトが意図せざる検閲メカニズムとして機能し、人間表現の独自の質感を均質化された言説に平滑化していることを定量的に示す証拠を提供する。WCSは、テキストの一貫性と語彙の豊かさとの間のトレードオフを最適化するための厳密な枠組みを提供し、生成モデルにおける人間言語の多様性を保存するための診断ツールを提供する。

GradSentry: 大規模言語モデルのファインチューニングにおけるバックドアサンプルフィルタリングのための勾配スペクトルエントロピー
GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning

May 26

ByHaodong Zhao, Tianyi Xu, Tianhang Zhao, Zhuosheng Zhang, Gongshen Liu

大規模言語モデルを信頼できないデータでファインチューニングすると、毒されたサンプルが標的となる誤動作を引き起こすバックドア攻撃にさらされます。既存のサンプルフィルタリング防御はクラスタリングに依存しており、十分なデータが必要で、極端な毒比率では失敗する可能性があります。我々は、サンプルごとの勾配のスペクトルエントロピーに基づくバックドアサンプルフィルタリング手法であるGradSentry（勾配セントリー）を提案します。我々の重要な発見は、毒されたサンプルがクリーンなサンプルと比較してより高いスペクトルエントロピーを持つ勾配を生成することです。GradSentryは、サンプルごとの勾配スペクトルを使用して出力を変更するバックドアシグネチャを捕捉し、特徴構築中にサンプル間のペアワイズ比較やクラスタリングを回避します。重要なのは、我々の手法はトレーニングに依存しないことです。勾配分析がトレーニング中に更新されるパラメータとは独立して動作するため、LoRAのようなパラメータ効率的ファインチューニング手法と全パラメータチューニングの両方で機能します。GradSentryはクラスタリングを必要とせず、すべての毒比率（1％～90％）で効果的に動作し、最小限の計算オーバーヘッド（7Bモデルでサンプルあたり20～50ミリ秒）しか導入しません。4つのQAデータセットと4つの攻撃タイプに対する評価により、バックドア検出におけるスペクトルエントロピーの有効性が実証されました。コードは https://github.com/dongdongzhaoUP/GradSentry で入手できます。

CubePart: オープンボキャブラリのパート制御可能な3D生成器
CubePart: An Open-Vocabulary Part-Controllable 3D Generator

May 27

ByYiheng Zhu, Kangle Deng, Jean-Philippe Fauconnier, Inaki Navarro, Daiqing Li, Ava Pun, Yinan Zhang, Peiye Zhuang, Xiaoxia Sun, Maneesh Agrawala, Kiran Bhat, Tinghui Zhou

インタラクティブ3Dアセットは、ゲームやシミュレーションにおいて、アニメーション、物理演算、スクリプト動作をサポートするために、特定の意味的パーツに分解されるのが一般的である。しかし、既存の生成型3Dモデルの多くは、単一メッシュまたはアプリケーション固有の要件に適合しない任意のパーツ分解を生成する。本稿では、推論時にパーツ構造を明示的な制御信号として公開する、オープンボキャブラリかつパート制御可能な3Dメッシュ生成フレームワーク「CubePart」を提案する。ユーザーが与える全体テキストプロンプトと、任意のパーツ名リストとして表現されるパーツスキーマに基づき、本手法はスキーマの各要素に対応するメッシュ群を生成し、それらが指定された意味的構造を維持しつつ一貫性のあるオブジェクトを構成する。この機能を実現するために、大規模なオープンボキャブラリ・パーツラベル付き3Dデータセットを構築するスケーラブルなデータパイプラインと、全体形状合成とパートレベルのデコードを分離する二段階生成アーキテクチャを導入する。生成されたアセットは、手動による後処理を必要とせずに、ゲームエンジンに直接組み込み、アニメーションや動作スクリプトによって駆動できることを実証する。プロジェクトページ: https://cubepart.github.io/

VibeSearchBench: 実環境における長期能動的探索のベンチマーク
VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

May 27

ByXiaohongshu Inc

LLMベースのエージェントは検索ベンチマークで高いスコアを示す一方、実際のユーザーは結果に一貫して満足しておらず、持続的な評価と実体験のギャップが明らかになっている。我々はこのギャップを、既存のベンチマークが過度に特定されたクエリ、単一ターンの対話、固定スキーマによる評価に依存していることに起因すると考える。これらはいずれも、ユーザーとエージェントが多ターン対話を通じて曖昧な意図を共同で洗練させる実際の検索行動を反映していない。我々はこのパラダイムをVibeSearchと名付け、20分野にわたる200の手作業でキュレーションされたバイリンガル（中国語と英語）タスクから構成されるベンチマークVibeSearchBenchを導入する。これはVibeSearch-Pro（専門）とVibeSearch-Daily（日常生活）のサブセットに分割される。各タスクは、ユーザーペルソナとスキーマフリーの正解知識グラフをペアとし、段階的開示を行うユーザーシミュレーターとグラフマッチング評価フレームワークによって評価される。我々は7つの最先端モデルを、ReActフレームワークとOpenClawエージェントハーネスの両方でベンチマークした。結果は、全てのモデルがVibeSearchに対して実質的に不十分であること（最高F1値：30.30）を示しており、長文脈推論、積極的な意図引き出し、構造化知識構築における根本的な進歩の必要性を浮き彫りにしている。

OmniVerifier-M1: 明示的構造化再校正を伴うマルチモーダルメタ検証器
OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

May 27

ByXinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Yujiu Yang, Ling Yang

視覚的なアウトプットはマルチモーダル大規模言語モデルにおいてますます中心的な役割を果たしており、汎用的な基盤モデルのスケーリングには信頼性が高く細粒度の検証が不可欠となっている。本研究では、決定信号のみに頼るのではなく検証器が生成する根拠を活用するマルチモーダルメタ検証を調査し、メタ検証フィードバックをマルチモーダル検証器の訓練に効果的に組み込む方法を探求する。我々は2つの重要な知見を特定した。第一に、記号的な検証器出力（例：バウンディングボックス）はテキスト説明よりもメタ検証の根拠として優れており、補助的な評価モデルからのモデルベース報酬への依存を回避しつつ、効率的なルールベースの強化学習報酬を可能にする。第二に、二値判断とメタ検証のための強化学習目的を分離することで、出力構造と学習ダイナミクスの本質的な違いにより、共同報酬最適化を大幅に上回る性能が得られる。これらの知見に基づき、記号的メタ検証と分離型強化学習を活用した汎用視覚検証器OmniVerifier-M1を訓練する。OmniVerifier-M1は頑健な検証と細粒度のエラー位置特定を提供し、さらに検証器駆動型のエージェント的生成システムであるM1-TTSを実現し、動的な領域レベルの自己修正を達成する。このアプローチは、より信頼性が高く、解釈可能で、細粒度なマルチモーダル検証への道を開き、より安全で制御可能な基盤モデルの展開を支援する。

類型論的に多様な言語にわたる思考連鎖モニタリングの脆弱性
The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

May 27

ByEric Onyame, Runtao Zhou, Kowshik Thopalli, Bhavya Kailkhura, Chirag Agarwal

連鎖思考（CoT）モニタリングは、大規模言語モデルにおけるミスアライメント行動を検出する有望な安全機構として提案されている。しかし、その信頼性は英語以外の言語や多様なモデルファミリーにおいてほとんど検討されていない。本稿では、13の多様な言語と7つの最先端モデルファミリー（計16モデル）にわたる、CoTの監視可能性に関する初の大規模評価を提示する。明示的な中間計算を必要とする敵対的ヒント評価と、内部の回答トークン確率の分析を併用し、言語やヒントの種類を問わず一貫してCoTの不整合性を確認した。その平均率は、8B～120Bパラメータモデルで95.9%に達する。最先端モデルは、回答切り替え、事後的な合理化、ヒントの手続き的悪用といった戦略的操作を系統的に行い、外部モニターが欺瞞を検出することを困難にしている。CoTが忠実に見える場合でも、最先端モデルは生成の最初の15%以内に潜在活性化においてミスアライメントした手がかりにコミットすることが多い。驚くべきことに、これらの欺瞞的パターンは低リソース言語でも100%維持され、現在のCoTに基づく監視の根本的な限界を明らかにしている。本結果は、CoTモニタリングが言語分布のシフト下で本質的に脆弱であり、英語のみの研究が示唆するよりもはるかに弱い安全信号を提供することを示している。これらの知見は、堅牢なCoTモニターの開発と、特に中・低リソース言語におけるCoTの監視可能性を改善するためのホワイトボックスモニタリング技術の研究加速の緊急の必要性を強調する。コードはhttps://multilingual-cot-monitoring.github.io/{blue{here}}で公開している。

あらゆるスケールのすべて：スケール不変拡散による連続超解像
Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

May 25

ByZixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić

ノイズから画像を生成することが画像生成であり、粗い入力から細部を再構成することが超解像である。実際の用途は異なるものの、両者はスケール間での情報損失を逆転させるプロセスとして捉えることができる。本稿では、スケール不変なK空間画像学習拡散モデル（SKILD）を提案する。これは、生成と連続超解像を単一の無条件フレームワークで統合するものである。自然画像と臨界物理系はともにスケール不変性を示す。この性質を活用し、微細スケールから粗視スケールへと画像内容を減衰させると同時にスペクトル適合ガウシアンノイズを注入する順過程を設計し、スケールを拡散ダイナミクスの明示的な座標とする。同一の学習済み逆過程は、開始タイムステップのみを変更することで生成と連続超解像を実行する。タスク固有のアーキテクチャ、条件付けブランチ、分類器不要ガイダンス、スケール因子ごとの再学習は一切不要である。実験的に、SKILDは無条件CIFAR-10においてFID 2.65、Inception Score 9.63を達成し、単一の無条件チェックポイントからImageNet上で2倍から8倍の超解像を実現し、知覚指標において条件付きモデルを上回る。また、臨界イジングモデルを再構成し、その接続4点相関が真値に密に追従する。

PEFT-Arena: 安定性-可塑性の観点からパラメータ効率的ファインチューニングを理解する
PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

May 27

ByYangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu

パラメータ効率的なファインチューニング（PEFT）は、大規模言語モデルを適応させるための標準的なアプローチとなっているが、評価は主に下流タスクの精度に重点を置き、事前学習された能力の保持を見落としている。我々は、PEFTは安定性-可塑性ジレンマ、すなわち目標タスクへの適応と忘却への耐性の間のトレードオフを通じて評価されるべきだと主張する。我々は、下流タスクのパフォーマンスと汎用能力の保持を同時に測定するベンチマーク、PEFT-Arenaを導入する。様々な手法にわたって、我々は異なる安定性-可塑性プロファイルを発見した。同等のパラメータ予算の下では、直交ファインチューニングが最も好ましいパレートフロンティアを達成する。これらの違いを説明するために、我々はPEFT更新を2つの幾何学的観点から分析する。重み空間では、スペクトル分析により、パラメータ化が事前学習された特異値構造とどのように相互作用するかが明らかになる。活性化空間では、保持指標により、ファインチューニングが汎用能力表現を保存するか歪めるかが示され、忘却は等長でない表現歪みと関連している。最後に、分析により、最終的なSFTチェックポイントはしばしばより良い目標保持動作点をオーバーシュートすることが示される。これに着想を得て、我々は経路方向の巻き戻しを用いた事後的改善の事例研究を提示する。

何を、どのように想像するか？――クロスビュー空間推論のための統合的マルチモーダルモデルにおける視覚的思考
How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning

May 26

ByQian Yang, Ankur Sikarwar, Huy Le, Le Zhang, Zhuan Shi, Perouz Taslakian, Aishwarya Agrawal

クロスビュー空間推論は視覚言語モデル（VLM）にとって依然として弱点であり、言語で推論する傾向があり、タスクに必要な詳細な幾何学的情報を失う。Thinking with Imagesは、中間的な思考画像を生成することでこの問題に対処しようとするが、最近の研究では、モデルがこれらのトレース内の視覚的証拠を無視することが多いことが示されている。そこで、本研究では、いかにして視覚的思考を重要にし、どのような種類の視覚的思考が最も効果的かを問う。我々は、画像とテキストのインターリーブ生成をネイティブでサポートする統合マルチモーダルモデル（UMM）を用いてこれらの問いを研究する。最初の問いに対し、我々はView Dropout（VDrop）を提案する。これは、入力ビューの一部を回答スパンから隠蔽しつつ、思考画像トークンからは可視のままにする訓練時介入である。これにより、モデルが入力ビューのみに依存するのではなく、思考画像を用いて回答するよう促される。回答予測に思考画像が利用されるようになった後、どのタイプの視覚的思考が最も効果的かを研究する。我々はこれを学習可能性と情報提供性のトレードオフとして捉え、トップダウン、パノラマ、点対応レンダリングの3つの思考画像バリアントを比較する。合成シーンで訓練し、5つの実世界のドメイン外ベンチマークで評価した結果、VDropを伴うパノラマ視覚的思考のみが、情報提供性と学習可能性の両方を満たす唯一の構成であり、最善のドメイン外汎化性能を達成した。

AgensFlow: マルチエージェントシステムのための協調ポリシー基盤
AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

May 26

ByNicole Koenigstein

大規模言語モデル（LLM）に基づくマルチエージェントシステムでは、どのスキルプロトコルを呼び出すか、どのエージェント役割がサブタスクを実行すべきか、各役割にどのモデルを割り当てるか、役割間の相互作用の方法、検索や検証をいつ使用するか、あるいはステップを完全に省略するかなど、事前に固定することが難しい多くの協調選択が必要となる。これらの選択はタスクの体制や運用制約と相互作用するため、静的パイプラインや一過性のモデル比較では設計空間の限られた見解しか得られない。本論文では、マルチエージェントの協調を部分観測可能性下でのオンラインポリシー学習問題として扱うオープンソースフレームワークAgensFlowを紹介する。このフレームワークは、スキル、役割、モデル、トポロジー、評価の選択を固定されたパイプライン設計として扱うのではなく、協調の決定を観測可能かつ反復的な軌跡から学習可能にする。 AgensFlowは、分散システムのインシデントタスクとセキュリティアドバイザリタスクの2つのコーパスで評価される。評価では、以下の3つの主要な結果が示される。学習されたルーティングは、協調密集型クラスにおいて固定パイプラインのベースラインよりも高品質な動作点に到達する。skip:Xは、トポロジー圧縮を基盤の意味のある部分として隔離する。ウォームスタートされたポリシーグラフは、プラトー品質を維持しながら探索コストを削減できる。総じて、これらの結果は、学習可能で監査可能なルーティングが、静的な配線よりも協調密集型のマルチエージェントワークフローを改善できることを支持するものである。

最適係数調整による強化学習におけるマルチトークン予測の共同訓練
Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

May 27

ByZili Wang, Jiajun Chai, Lin Chen, Xiaohan Wang, Shiming Xiang, Guojun Yin

検証可能な報酬を用いた強化学習（RLVR）は、大規模言語モデルの推論能力を向上させるための標準的なパラダイムとして登場し、一方でマルチトークン予測（MTP）は事前学習において広く採用されているモジュールである。これらを組み合わせることは自然なアプローチであるが、現在の強化学習の実践ではMTPの勾配を分離（detach）している。なぜなら、結合学習を行うと性能が低下するからである。本稿では、この失敗を最適化の観点から再検討する。我々は、MTPが強化学習の目的関数に与える1ステップごとの影響が、一次相関項と二次摂動ペナルティ項の二つに分解できることを示す。この分解により、Detach、交差エントロピー損失、方策損失という三つのMTP訓練方式が統一的に説明され、それぞれの成功・失敗の理由が明らかになる。さらに方策損失の分析から、直感に合致しているにもかかわらず性能が低下する理由が明らかになる。すなわち、相関項は減衰する一方で二次ペナルティは持続するのである。この分析に基づき、我々は最適係数キャリブレーション（OCC）を提案する。これは、対数確率プロキシを介してオンラインで最適係数を追跡する適応方式であり、そのコストは無視できるほど小さい。6つの競技レベルの数学的推論ベンチマークにおいて、OCCは一貫して分離ベースラインと同等以上の性能を達成し、MTPと強化学習の結合訓練の性能を向上させる。

評価の設計方法を理解しているモデルはより安全なスコアを獲得する
Models That Know How Evaluations Are Designed Score Safer

May 27

ByKatharina Deckenbach, Haritz Puerto, Jonas Geiping, Sahar Abdelnabi

AI安全性評価の妥当性は、制御環境とデプロイ環境においてモデルが一貫した動作を示すことに依存する。先行研究では、仮想的シナリオのようなテスト時の文脈的手がかりが、評価認識の言語化とそれに続く行動変化の要因となることが特定されている。本論文では、この現象の潜在的説明として、評価メタ知識、すなわち評価を特徴づける構造的特性に関するパラメトリックな知識を調査する。ベンチマークへの曝露が記憶を通じて高いパフォーマンスをもたらすデータセット汚染と同様に、評価実践を記述したテキストで訓練されたモデルは、例えばAIベンチマークに関する科学論文やソーシャルメディアの投稿への曝露を通じて、評価に類似した文脈を暗黙的に認識し応答することを学習する可能性があると仮説を立てる。これを検証するため、検証可能な構造や道徳的ジレンマなどの評価特性を記述した合成文書でモデルをファインチューニングする。このファインチューニング済みモデルを6つの安全性ベンチマークで評価した結果、ベースモデルおよび制御モデルよりも有意に安全であることが判明した。この行動変化は、評価認識の明示的な言語化を欠いた応答に分析を限定した場合でも持続する。我々の結果は、評価メタ知識が安全性ベンチマークのパフォーマンスを過大評価させる可能性があり、明示的な記憶や言語化された評価認識とは独立した新たな交絡因子を導入するため、検出が困難であることを示している。これらの知見は、AI安全性評価の設計と解釈に重要な含意を持つ。コードとモデルはhttps://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledgeで公開している。

Chartographer: 視覚言語モデル評価のための反事実的チャート生成
Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

May 26

ByYifan Jiang, Dae Yon Hwang, Jesse C. Cresswell, Freda Shi

チャート質問応答（QA）ベンチマークは、正しく回答するために視覚的推論を必要とする質問を提示することを目的としているが、モデルは自身の背景知識に基づいて、近道やチャートに対する事前の馴染みを通じて解答に到達することが多い。視覚的推論を厳密に評価するために、我々は反事実チャートを提案する。これは、チャートと質問のタスクは固定されたままであるが、基礎となるチャートと対応する回答が変更されるものである。我々はChartographerというフレームワークを導入する。これは、チャートを実行可能コードにリバースエンジニアリングし、再構築の忠実性を検証し、シード制御された反事実バリアントを生成し、実行可能なQAロジックから新たな回答を導出するものである。我々はこのフレームワークを既存のチャートQAデータセットに適用し、プロプライエタリおよびオープンソースの視覚言語モデル（VLM）を評価し、変動感度と一般化可能性を測定する。反事実チャートは、単一チャート性能では隠されていた失敗を明らかにする。すなわち、VLMは元のチャートに正しく回答した後でも一般化に失敗することが多い。特に、更新されたチャートが新たな視覚的推論経路を必要とする場合に、失敗が最も顕著であることがわかった。

オートサイエンティスト：長期実行科学実験のための自己組織化エージェントチーム
AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

May 27

ByShanghua Gao, Ada Fang, Marinka Zitnik

科学研究は、仮説生成、実験設計、実行、修正の反復サイクルを通じて進展する。AIエージェントはこのプロセスの一部を自動化できるが、既存のアプローチは通常、単一の研究軌道に従うか、固定された目的を持つ中央プランナーを通じて調整される。その結果、並列的な探索の持続、実験的証拠の変化への適応、長期実験における失敗した方向性の知識の保持に苦慮する。我々は、長期にわたる計算科学実験のための分散型AIエージェントチームであるAutoScientistsを紹介する。エージェントは共有された実験状態を解釈し、有望な仮説を中心にチームに自己組織化し、実験計算リソースを使用する前に提案を批評し、成功と失敗を共有することで重複した探索を削減する。同等の実験予算の下で、AutoScientistsは、生体医工学機械学習、言語モデル学習最適化、タンパク質適合性予測において、先行するAIエージェントよりも優れた性能を示す。BioML-Bench（生体医工学イメージング、タンパク質工学、単一細胞オミクス、創薬を網羅）では、AutoScientistsは24タスクにわたり平均リーダーボードパーセンタイル74.4%を達成し、最強のAIエージェントを+8.33%上回る。GPT学習最適化では、AutoScientistsは目標とする検証ビット・パー・バイトにAutoResearchより1.9倍速く到達し、単一エージェントアプローチでは改善が見られなかったスタートチャンピオンからも改善を発見し続ける（7件対0件の受理された改善）。ProteinGym適合性予測では、AutoScientistsはACE2-Spike結合のための手法を発見し、現在の最先端モデルをSpearman相関係数で+12.5%改善する。ProteinGymの全217アッセイに修正なしで適用した場合、同じ手法は先行技術を+6.5%（Spearman相関係数）上回る。

ESC-スキル: 感情サポート会話のためのスキルの発見と自己進化
ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

May 27

ByJie Zhu, Huaixia Dou, Shuo Jiang, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang, Fang Kong

既存の感情サポート対話（ESC）システムは主にエンドツーエンドの応答生成や粗い戦略監督に依存しており、解釈可能性が限られ、体系的なスキル向上のための支援もほとんどありません。本稿では、実行可能な感情サポートスキルを発見し自己進化させるスキル中心のフレームワークESC-Skillsを提案します。まず、局所的なサポート対話を介入ユニット（IU）としてモデル化し、相談者の状態、サポート介入、応答後の感情変化の間の状態–行動–結果の動態を捉えます。成功したESC対話と失敗したESC対話の両方から抽出したIUに基づき、介入ガイダンス、適用条件、期待される結果、潜在的リスクを含む実行可能な感情サポートスキルのリポジトリであるESC-Skillsバンクを構築します。さらに頑健性を高めるため、ESCエージェントがSAGE評価のもとで多様なシミュレートされた相談者プロファイルと相互作用するマルチプロファイル自己進化的改良フレームワークを導入します。得られた相互作用の痕跡を分析して、欠落しているスキル、安全でない介入、プロファイル固有の失敗パターンを特定し、それらをシミュレーションベースの検証を通じてスキルバンクの改良に活用します。実験結果は、ESC-Skillsが応答レベルの品質と対話レベルの感情的成果の両方を改善するとともに、より解釈可能で制御可能なサポート行動を提供することを示しています。コード、プロンプト、ESC-Skillsバンクはhttps://github.com/aliyun/qwen-dianjinで公開します。

Verus-SpecGym: 仕様自動形式化評価のためのエージェント環境
Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

May 26

ByAnmol Agarwal, Natalie Neamtu, Pranjal Aggarwal, Seungone Kim, Jannis Limperg, Cedric Flamant, Kanna Shimizu, Bryan Parno, Sean Welleck

AIコーディングエージェントは実際のソフトウェアの記述にますます利用されているが、その出力が正しいことを保証することは依然として基本的な課題である。形式検証は有望な道を提供する。すなわち、エージェントがコードと機械検証済みの証明を生成し、そのコードが形式仕様を満たすことを保証する。しかし、形式仕様自体がユーザの意図と一致するという保証はない。本研究では、仕様の自動形式化、すなわちLLMエージェントが非形式的なプログラミング問題を忠実な形式仕様に翻訳できるかどうかを研究する。我々は、Rust用検証器Verusを対象とし、Codeforcesの問題に由来する581個の仕様記述タスクからなるベンチマークVerus-SpecBenchと、モデルがVerus、bash、ファイルシステムと相互作用してこれらの仕様を開発するエージェント環境Verus-SpecGymを導入する。中心的な課題は評価である。専門家が作成した参照仕様は作成コストが高く、LLM判定者は微妙な誤りを見逃しうる。そこで我々は、(a) Verusのexec_spec機構を拡張し、生成された仕様をRustコードとして実行可能にするとともに、(b) それらを公式のCodeforcesテストと、誤った解法を破るために競技者によって書かれたエッジケースであるCodeforcesの「ハック」から抽出した敵対的ケースに対してテストすることで対処する。Verus-SpecBenchにおいて、最強モデルであるGemini 3.1 Proはタスクの77.8%を解決し、他のフロンティアモデルは51.1～57.8%、OSSモデルは21.5～25.5%にとどまる。失敗モードの分析から、モデル生成の仕様は重要な入力前提を省略したり、不正な出力を受け入れたり、正当な出力を拒否したりすることが示された。また、LLM判定者による評価は、我々の評価者が捕捉する失敗の26%を見逃すことも判明した。全体として、これらの結果は、仕様の自動形式化がフロンティアエージェントにとって手の届く範囲にあるものの、彼らがすでに正しいコードを生成できる問題においてさえ脆弱であることを示唆している。コード、データ、ログは https://github.com/formal-verif-is-cool/verus-spec-gym で入手可能である。

AgentFugue: 集団的推論による長期タスクのエージェントスケーリング
AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

May 23

ByYuyang Hu, Hongjin Qian, Shuting Wang, Jiongnan Liu, Tong Zhao, Xiaoxi Li, Zheng Liu, Zhicheng Dou

近年、長期的なエージェントタスクの進展は主に、より強力なモデル、優れたツール、効果的な足場掛けを通じて個々のエージェントをスケールアップすることによって推進されてきた。対照的に、スケールアウト（同じタスクを対象とする複数のピアエージェントが、明示的な役割の専門化やワークフローのオーケストレーションに依存せずに、追加の能力源となり得るか）については、はるかに理解が進んでいない。我々はこの問題を研究し、共有推論ハブを中核とする集団推論フレームワーク「AgentFugue」を提案する。ピアエージェントが同じタスクを並行して探索する際、ハブは各エージェントが確立、試行、または排除した内容について簡潔なメモを記録し、各エージェントが現在の探索に有用な形式で他のエージェントの発見に選択的にアクセスできるようにする。この設計により、従来は孤立していた軌跡が、中央集権的な計画を必要とせずに、再利用可能な中間推論の相互接続された生態系へと変貌する。我々はハブをプラグイン型の通信層として具体化し、教師ありファインチューニングとエンドツーエンドの強化学習で訓練する。我々が研究する困難な長期的設定において、AgentFugueは強力なベースラインを上回る改善を示す。この結果は、集団推論がピアエージェントシステムのスケールアウトを、単なる計算資源の追加消費ではなく、明確な能力向上の源泉に変え得ることを示唆している。

AgentHijack: コンピュータ利用エージェントの一般的な環境破損に対するロバスト性のベンチマーク評価
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

May 25

ByJingwei Sun, Jianing Zhu, Yuanyi Li, Tongliang Liu, Xia HU, Bo Han

マルチモーダル大規模言語モデル（MLLM）を基盤とする自律型コンピュータ操作エージェントは、複雑なデジタルワークフローを遂行する有能なアシスタントとして台頭している。しかし、実世界の実行環境は理想とは程遠く、ポップアップ、解像度の変更、競合アプリケーションがエージェントの知覚と制御に頻繁に干渉する。本稿では、動的環境における不確実性が直接的な敵対的意図なしに実行フローを妨害する一般的な外乱下でのコンピュータ操作エージェントのロバスト性を評価するためのベンチマークであるAgentHijackを導入する。具体的には、AgentHijackは現実的な不完全シナリオを再現するために9種類の設定可能な一般的な外乱を導入する。MLLMベースのエージェントを活用した様々なデスクトップタスクを評価した結果、軽微な外乱であってもパフォーマンスが大幅に低下することが判明し、これはエージェントの脆弱性を強調し、ロバスト性評価の必要性を浮き彫りにする。その後、強化されたグラウンディング能力を持つ行動生成器と、行動の要約及び環境チェックを担当する監視役を統合したフレームワークであるAgentHijack-Agentを提案する。広範な実験によりその有効性を検証する。コード、環境、ベースラインモデル、データはhttps://AgentHijack.github.ioで公開している。

大規模マルチモーダルモデルにおける創造的物理知能の発展
Advancing Creative Physical Intelligence in Large Multimodal Models

May 25

ByCheng Qian, Hyeonjeong Ha, Jiayu Liu, Jeonghwan Kim, Emre Can Acikgoz, Bingxuan Li, Kunlun Zhu, Jiateng Liu, Aditi Tiwari, Zhenhailong Wang, Xiusi Chen, Mahdi Namazifar, Heng Ji

大規模マルチモーダルモデル（LMM）は知覚と推論において急速に進歩してきたが、これらの能力がパターン認識を超えて、オープンエンド環境で視覚に基づく解決策を発見することに汎化できるかどうかは依然として明らかではない。こうした環境では、知能は適切に設定された質問に答えるだけでは不十分であり、場面内の要素をどのように非自明でありながら物理的に実現可能な方法で転用できるかを特定することが含まれる。この形態の創造的問題解決は人間の知能の中心であるが、現在のベンチマークではほとんどテストされていない。この能力を評価するために、我々はMM-CreativityBenchを紹介する。これは視覚的に豊かで物理的制約のある環境におけるアフォーダンスに基づく創造的な道具使用のためのベンチマークである。各インスタンスは、候補エンティティとその部品の構造化されたビューを含むシナリオ画像を提示し、モデルが反復的にシーンを調査し、関連するアフォーダンスを特定し、視覚的および物理的に根拠づけられた解決策を構成する方法の細粒度でインタラクティブな評価を可能にする。我々の実験は、現在のLMMがしばしば不十分であり、その原因は生成能力の欠如ではなく、根拠に基づく探索を持続しないことにあることを示している。モデルはしばしば関連エンティティを見落とし、重要な部品を十分に調査せず、または画像に基づかない属性を幻覚する。この失敗モードに動機づけられ、我々はアフォーダンスに基づくアライメントを提案する。これは創造的な道具使用を選好学習問題として捉える。直接選好最適化を用いて、モデルが幻覚的な代替案よりも視覚的証拠に基づく属性-アフォーダンス推論を好むように促す。さらに、アフォーダンス知識ベースから得られる教師信号を取り入れ、より広範なエンティティ探索とマルチターン計画を導く。我々の結果は、正しいエンティティと部品の選択において一貫した改善を示し、幻覚および根拠関連のエラーを大幅に減少させる。

幅、深さ、時間におけるニューラルネットワークの成長
Growing a Neural Network in Breadth, Depth, and Time

May 24

ByEivinas Butkus, Kedar Garzón Gupta, Nikolaus Kriegeskorte

空間的および時間的なリソース制約は、生物学的知能システムと人工知能システムの両方にとって極めて重要である。本論文では、無限格子の有限部分集合として捉えられた再帰型畳み込みニューラルネットワークにおいて、幅、深さ、時間に対する微分可能なコスト項を定義する。誤差逆伝播法を用いて、これらのコストをタスク誤差と同時に最適化する。幅、深さ、時間に対して異なる圧力を設定することで、訓練を通じて多様な計算グラフが有機的に出現する。3つのリソースはすべて、所与の精度を達成するために相互にトレードオフ可能であることが分かる。ネットワークはタスクの複雑さに応じて3つの次元すべてで成長し、入力が遮蔽された場合には自発的により多くの再帰ステップを実行する。驚くべきことに、モデルが使用する時間は、物体認識タスクにおける人間の反応時間と相関する。本フレームワークは、リソース制約がニューラルアーキテクチャをどのように形成するかについての規範的説明を提供し、神経科学における脳の設計に関する疑問と結びつくものであり、自然界に見られる多様な神経解決策の解明に寄与する可能性がある。

LLM生成コードスニペットのための効率的かつスケーラブルな来歴追跡
Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

May 27

ByAndrea Gurioli, Davide D'Ascenzo, Federico Pennino, Maurizio Gabbrielli, Stefano Zacchiroli

コード補完および生成を目的とした大規模言語モデル（LLM）はソフトウェア開発においてますます利用されているが、学習事例を著者帰属なしに逐語的に再現することがあり、剽窃やライセンス準拠に関する法的・倫理的な懸念を引き起こしている。Winnowingなどの古典的なフィンガープリントベースの剽窃検出器は依然として高い有効性を持つものの、その検査にはコード断片を学習セット全体と比較する必要があり、線形時間探索に依存するため、現代のコードLLMの学習に用いられる数十億規模のコーパスでは実用的ではない。このギャップを埋めるために、我々はコード検索に特化した3億パラメータのエンコーダSOURCETRACKERと、ハイブリッドな二段階来歴追跡パイプラインHYBRIDSOURCETRACKER（HST）を導入する。HSTはまずベクトル検索によって少数の候補スニペット集合を絞り込み、次にそれらの候補をWinnowingによる正確なフィンガープリントで再ランク付けする。我々はTHESTACKV2データセットの1000万スニペット部分集合を用いてシステムを学習・評価し、現実的な識別子のリネームを模倣した逐語的スニペットと適応スニペットの両方を含む。適応クエリを用いたin vitroの10万スニペット検索空間において、我々のハイブリッド手法は30トークン断片に対してWinnowingと同等の平均逆順位（MRR）を達成する。さらに60トークン以上のウィンドウからは、対数時間のクエリ計算量を維持しつつ、最大5.4%の一貫した性能向上を示す。LLMベースの判定器を用いた補完評価では、正解データとしてラベル付けされていない多くの検索スニペットが、特に長いコンテキストウィンドウにおいて期待されるソースと非常に類似しており、エンドユーザーにとって有用であることが判明した。全体として、我々の結果はベクトル検索とフィンガープリントの統合が、LLMが生成したコードに対するスケーラブルで高精度な来歴追跡を可能にすることを示している。

BatteryMFormer: バッテリ劣化軌道予測のためのマルチレベル学習
BatteryMFormer: Multi-level Learning for Battery Degradation Trajectory Forecasting

May 26

ByRuifeng Tan, Jintao Dong, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang

早期のバッテリ劣化軌道予測（BDTF）は、運用初期のデータから全寿命にわたる健全状態軌道を予測する技術であり、バッテリの最適化、製造、配備において重要である。バッテリ劣化データには二つの主要な特性がある。第一に、劣化データは多階層構造を示し、エージング条件内で共有される規則性と、バッテリ間で共有される軌道パターンを含む。第二に、電圧・電流プロファイルにおける劣化関連の変動は、特定の充電状態（SOC）区間に局在することが多い。既存の手法では、これらの特性を明示的にモデル化できないことが多い。このギャップを埋めるため、我々は早期BDTFのための多階層TransformerであるBatteryMFormerを提案する。BatteryMFormerは以下の要素を統合する：(1) エージング条件を認識するデコーダ。エージング条件に基づくクエリとエージング条件認識型アテンションを通じてエージング条件の事前知識を注入する。(2) メタ劣化パターンメモリ。軌道プロトタイプを学習・取得し、長期予測を導く。(3) デュアルビューエンコーダ。電圧・電流時系列から時間ダイナミクスとSOC局在変動を共に捉える。四つのバッテリドメインにおける広範な実験により、BatteryMFormerは最先端のベースラインを一貫して上回り、信頼性の高いBDTFに向けた重要な一歩を示す。コードはhttps://github.com/Ruifeng-Tan/BatteryMFormerで公開している。

論理的推論のためのアルゴリズム的演繹回路の解明
Revealing Algorithmic Deductive Circuits for Logical Reasoning

May 27

ByPhuong Minh Nguyen, Tien Huu Dang, Naoya Inoue

近年の研究では、大規模言語モデル（LLM）が、グラフ探索アルゴリズムと段階的推論を抽象的に記述する機能的記号表現を少数ショット学習設定に組み込むことで、強力な推論性能を達成できることが示されている。しかしながら、LLMが限られた数のデモンストレーションのみから各推論ステップおよびアルゴリズム全体の抽象的な意味をどのように真に理解しているのかは、依然として不明である。本研究では、個々の推論ステップに責任を持つアテンションヘッドを特定し、それらの間で転送される情報の種類を特徴付けることを目的とする。まず、記号支援型Chain-of-Thought（CoT）プロンプティングフレームワークの下で、構成する推論ステップを対応するトークンロジットと対応付ける。解析の結果、推論プロセスを導くトークン位置は、デモンストレーションにおける推論行動パターンを満たすための制約によって生じる低い信頼度スコアと関連していることが示される。次に、因果媒介分析手法を採用して、これらのパターンに責任を持つアテンションヘッドを特定する。さらに、我々の知見は、LLMが専門化されたアテンションヘッド（全ヘッドの約3%）を通じて個々のサブ推論タスクのための事実ベースおよびルールベースの情報を取得する一方、高層層は主に情報統合と、複数の中間推論ステップを調整して全体タスクを解決するグローバルな推論戦略（例：グラフ探索アルゴリズム）の創発を促進することを示している。

LACUNA: 安全なエージェントとしての再帰的プログラムホール
LACUNA: Safe Agents as Recursive Program Holes

May 27

ByYaoyu Zhao, Yichen Xu, Oliver Bračevac, Cao Nguyen Pham, Frank Zhengqing Wu, Martin Odersky

LLMエージェントはコードを記述することで動作するケースが増えているが、エージェントを駆動するランタイムとモデルが記述するコードとの間には依然として分断が存在する。ランタイムはループ、コンテキスト、制御フローを所有しており、モデルはこれらに対してほとんど影響を及ぼせない。モデルが記述したコードがランタイム自体を形成できるようにすれば、エージェントはより表現力豊かになるが、同時に安全性の問題も深刻化する。モデルはプロンプトインジェクションによって誘導されたり、誤ったツールを呼び出したり、途中で失敗して不整合な状態を残したりする可能性があり、コードがランタイムを形成する場合、こうした障害は単一のアクションを表現する場合よりも影響が大きくなる。本稿では、この分断を解消しつつ安全性を維持するエージェント向けプログラミングモデルであるLACUNAを提案する。各エージェントアクションは型付き呼び出しagent[T](task)であり、実行がその箇所に到達した際にLLMがコードで埋め、そのコードは実行前に周囲のプログラムに対して型チェックを受ける。各アクションは全体として受け入れられるか拒否されるため、拒否されたアクションは環境に影響を残さず、コンパイラの診断結果がリトライを駆動する。また、同じチェックによって、アクションが使用できるツールやデータ、それらの流れも制限される。このプリミティブは、ReActループ、サブエージェント、スキル、並列分解、マルチモデル計画などを通常の制御フローとして表現する。LACUNAを、テストケース群、BrowseComp-Plus、τ^2-benchで評価した。BrowseComp-Plusでは、生成結果の8.6%が実行前に拒否され、クエリあたり平均0.7回のリトライが発生し、エージェントは27.1%の精度に達した。τ^2-benchでは、LACUNAは高性能モデルを用いて4ドメインにわたる392タスクの76.0%を解決し、ベースラインエージェントと同等の結果を示した。

推測せず、尋ねよ：マルチターンの明確化による指示セグメンテーションにおける曖昧性の解消
Don't Guess, Just Ask: Resolving Ambiguity in Referring Segmentation via Multi-turn Clarification

May 24

ByYuting Yang, Haichao Jiang, Tianming Liang, Quan Zhang, Jian-Fang Hu

参照セグメンテーションは、テキストクエリに基づいて画像や動画内の対象物体をセグメント化することを目的とする。過去数年間で顕著な進展が見られたものの、既存の研究は常にユーザが提供するクエリが既に正確かつ明確であると仮定している。しかし、この仮定は非現実的である。実世界のシナリオでは、すべてのユーザが自身の視覚コンテンツを徹底的に確認し、クエリが一意で曖昧さを含まないように慎重に作成することを期待するのは現実的ではない。このようなケースに直面した際、既存のセグメンテーションモデルはユーザの好みを恣意的に推測する傾向があり、しばしば望ましくない結果をもたらす。この制限に対処するため、我々はIC-Segを提案する。これはセグメンテーション前に多ターン対話を通じてユーザの意図を積極的に明確化する新たなエージェントフレームワークである。この能力を効果的に促進するために、我々はさらにHi-GRPOを導入する。これは軌跡、ターン、ステップの各レベルで高密度かつ情報豊富な教師信号を注入する新たな階層的最適化戦略である。この戦略により、効率的な意図明確化が促進され、冗長な対話が効果的に排除され、全体的な対話品質が向上する。評価のため、曖昧なユーザクエリを伴う参照動画物体セグメンテーションベンチマークであるAmbi-RVOSを構築した。広範な実験により、IC-Segは曖昧なクエリの解決において既存手法を大幅に上回るだけでなく、標準的な推論セグメンテーションベンチマークにおいても最先端の性能を維持することが示された。コードとデータはhttps://github.com/iSEE-Laboratory/IC-Segで公開予定である。

モーファブル物体事前分布に基づくカメラ空間におけるカテゴリーレベルの3次元対応
Category-Level 3D Correspondence in Camera Space via Morphable Object Priors

May 27

ByLeonhard Sommer, Artur Jesslen, Basavaraj Sunagad, Adam Kortylewski

画像からの3D物体理解は、ロボット工学やAR/VRアプリケーションにおいて基礎的な重要性を持つ。近年の研究ではカテゴリレベルの姿勢推定が進展しているものの、物体の部品、機能、相互作用に関する推論に必要な細粒度の意味情報を捉える表現は依然として不足している。本研究では、カメラ空間におけるカテゴリレベルの3D対応関係—単一画像から、同一カテゴリ内のインスタンス間で一貫した3D位置を予測すること—を扱い、共有可能な可変形物体事前分布を学習することで、明示的な対応関係の教師なしにそれが出現しうることを示す。この方向の研究を促進するため、我々はHouseCorr3Dを導入する。これは、50の家庭用物体カテゴリ、280の個別インスタンスにわたり178,000枚の画像を含み、CADモデル上に直接3Dキーポイントアノテーションを付与した、単眼カテゴリレベル3D対応関係のための初の大規模ベンチマークである。重要な点として、HouseCorr3Dは、遮蔽領域に対するアモーダル対応ラベルと明示的な対称性アノテーションを提供し、既存データセットの主要な制限に対処する。さらに我々はMorpheusを提案する。これは、標準形状、変形、物体姿勢を分離することにより、可変形カテゴリレベル形状事前分布を学習する手法である。この共有標準基底を通じて、カメラ空間における意味的に意味のある3D対応関係が暗黙的に出現する。これらの出現する3D対応関係はHouseCorr3Dにおいて新たな最先端を達成し、直接的な対応関係の教師なしでも意味的3D物体理解が生じうることを実証する。データとコードはhttps://github.com/GenIntel/HouseCorr3Dで公開されている。

Clark Hash: ニューラル埋め込みのためのステートレススパースジョンソン-リンデンシュトラウス量子化
Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings

May 27

ByStanislav Kirdey, Clark Labs Inc

Clark Hashは、ニューラル埋め込みをより少ない容量で格納するための小さな手法です。各データベースベクトルを正規化し、決定論的なスパース符号付きジョンソン-リンデンシュトラウス射影を適用し、結果をクリッピングし、固定幅のスカラー量子化コードを格納します。クエリは浮動小数点のままで、格納されたスケッチとスコアリングされます。デフォルトの384次元文埋め込み設定では、Clark Hashはコサイン検索ベクトルを48バイトで格納します。これは、密なf32ストレージの1536バイトと比較して32倍小さいです。この手法は、新しいベクトルを格納する前に、学習パス、学習済みコードブック、回転、コーパス統計を必要としません。本稿では、コーデック、Rust実装、および29のサブセットからの9,304のラベル付きペアを用いた多言語文類似性評価について説明します。多言語MiniLMエンコーダを用いた場合、48バイトのスケッチは、STS17およびSTS22において、密なコサインスコアとのマクロピアソン相関がそれぞれ0.910および0.946に達しました。Clark Hashは新しいジョンソン-リンデンシュトラウスの定理ではなく、近似最近傍インデックスの代替でもありません。これは、コンパクトな埋め込みストレージのためのシンプルなステートレスコーデックです。

秘密はあるか？LLMエージェントはそれを守れない：マルチエージェントシステムにおけるプライバシーの評価
Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

May 26

ByAman Priyanshu, Supriti Vijay, Esha Pahwa

LLMの安全性評価は主にモデルを孤立環境でテストしていますが、実際に展開されるAIエージェントは他のエージェントと共に持続的な社会的環境で動作するようになっています。我々は、数千のLLMエージェントがシミュレートされた1か月間を通じてコミュニティ間で相互作用するMoltbookスタイルのシミュレーションプラットフォームを導入し、これを利用してさまざまな社会的圧力の下でプライバシーを下流の安全性問題として評価します。その結果、単一ターンから複数ターンの社会的評価への移行によりプライバシー侵害が拡大し（OpenAIモデル全体でCIMemories 19.95％から本手法45.30％へ）、情報漏洩は社会的に伝染し、エージェントが同僚の行動を観察した後、機密情報を開示する可能性が8倍高くなること、そして明示的なプライバシー指示はこの効果を低減するものの完全には排除せず、対策を施しても漏洩率が37.8％を超えることが判明しました。これらの知見は、静的なチャットベースの安全性ベンチマークがエージェントの実運用におけるリスクを体系的に過小評価しており、社会的文脈だけで単一ターン評価では決して表面化しない機密情報の開示を引き起こすのに十分であることを示唆しています。

拡散ベースのビデオ超解像におけるビデオ品質モデルの精度はどの程度か？
How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?

May 25

ByBenjamin Herb, Steve Göring, Alexander Raake, Rakesh Rao Ramachandra Rao

近年のビデオ超解像（VSR）手法では、深層ニューラルネットワークを用いて低品質の入力ビデオを向上させ、視覚的詳細を回復しており、特に拡散ベース手法が有望な結果を示している。本論文では、既存のビデオ品質モデルがこれらの拡散ベースVSR手法の性能評価に利用可能かどうかを、モデル予測と主観評価試験の結果を比較することで調査する。研究では、UHD-1/4K画面での再生を考慮し、圧縮（AV1およびDCVC-RT）および非圧縮の低解像度ビデオに適用された6種類のアップスケーリング手法（Lanczos、Rhea、SCST、DOVE、SeedVR2、Starlight Mini）を比較する。また、シーケンス内の性能に焦点を当て、この新たな種類の品質劣化に対する適用性を評価するため、複数のフル参照およびノー参照品質モデルを用いる。結果から、LPIPS、DISTS、CVQA-FRなどのCNNベースのフル参照モデルは、従来のフル参照モデルおよびテストされたノー参照モデルの両方よりも有意に高い相関係数を示すことが明らかになった。ほとんどのモデルはSCSTの過度にシャープな結果を過大評価し、VMAFは主にStarlight Miniによって導入された空間的不整合のために失敗している。テストしたビデオ品質モデルのいずれも、補完的な主観評価試験を代替できるほどの十分な精度には達していない。参照動画、劣化動画、アップスケーリング動画、ならびにユーザ評価とモデルスコアは、本論文とともにhttps://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSRでオープンデータとして公開されている。

確率の鎖を断ち切る：大規模言語モデルにおける認識論的不確実性のための新しい枠組みとしてのニュートロソフィック論理
Breaking the Chains of Probability: Neutrosophic Logic as a New Framework for Epistemic Uncertainty in Large Language Models

May 22

ByMaikel Yelandi Leyva-Vázquez, Florentin Smarandache

大規模言語モデル（LLM）は主に確率的枠組みによって支配されており、出力確率の合計が1に制約される。このアーキテクチャ上の制限は、しばしばSoftmax層によって課され、不確実性の崩壊を引き起こし、認識論的不確実性、パラドックス、曖昧性を区別することを困難にする。本稿では、真理（T）、不確定性（I）、虚偽（F）を3つの独立した次元として扱う枠組みである中性論理をLLMの認識状態のモデル化に適用する実証調査を提示する。我々は、4つのOpenAI GPTモデルファミリーを対象に、論理的パラドックス、認識論的無知、曖昧性、倫理的矛盾、未来の偶然性という5つの言語現象について、中性論理的、確率的、エントロピー由来の3つのプロンプト戦略下で実験を行った。結果として、中性論理的アプローチは、T+I+F > 1（我々が超真理と呼ぶ状態）を許容することで、モデルの内部状態のより豊かな表現を提供することが明らかになった。評価の35%において、超真理が自発的に出現し、主に倫理的矛盾と論理的パラドックスにおいて顕著であった。このアプローチは、曖昧な文脈において真理値を保持し、内部モデルの矛盾を特定・定量化する堅牢な方法を提供することを示す。結論として、中性論理的評価層の統合は、より透明で信頼性が高く、倫理意識のあるAIシステムへの重要な一歩であると主張する。

PEAM: マインクラフトにおける対比的経験の内在化によるパラメトリック身体化エージェント記憶
PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

May 26

ByYuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su

本稿では、Minecraftにおけるパラメトリック具体化エージェントメモリフレームワークであるPEAMを提案する。これは、エージェントのメモリを推論時の検索から、経験を通じて内面化されたパラメータ常駐スキルへと変換する。PEAMは、オープンエンドな推論のための低速な熟慮型LLMと、統合されたスキルの反射的実行のための高速なパラメトリックモジュールを組み合わせている。この高速モジュールは、カテゴリごとに物理的に分離されたアダプタを備えたマルチモーダル混合専門家LoRAアーキテクチャであり、壊滅的忘却なしにパラメータレベルでの継続学習を可能にする。我々は失敗を第一級の訓練信号として扱う。失敗と修正の軌跡ペアは、行動クローンと対照目的の共同目的を通じて内面化され、エージェントは成功する行動だけでなく、修正された行動が失敗した行動とどのように異なるかを学習する。統合を制御するために、PEAMはどの経験を内面化すべきかを判断するためのパラメータ化適合度スコアと、いつ内面化するかをタスク固有の手動調整閾値なしで判断するためのスケールフリー自己トリガー統合メカニズムを導入する。これにより、トリガーがタスク分布間で再調整なしに転移するにつれて、エージェントは自己進化する。Minecraftにおける実験では、PEAMが長期的タスク性能を向上させ、以前に統合されたスキルの忘却を軽減し、検索ベースの具体化エージェントやパラメトリックメモリの変種と比較して、パラメトリック対検索の効率を改善することを示している。

離散拡散における償却逐次モンテカルロのための対照的分布マッチング
Contrastive Distribution Matching for Amortized Sequential Monte Carlo in Discrete Diffusion

May 22

ByJaihoon Kim, Taehoon Yoon, Prin Phunyaphibarn, Seungjun Kim, Morteza Mardani, Minhyuk Sung

離散拡散モデルは、構造化されたカテゴリデータを生成するための強力な枠組みとして登場した。しかし、報酬に傾斜した分布からの効率的なサンプリングは依然として重要な課題である。Twisted Sequential Monte Carlo (SMC) はこの課題に対して漸近的な正確性を提供するが、離散状態空間における最適なねじれ関数の推定には高コストなモンテカルロ近似が必要であり、推論時に深刻な計算ボトルネックを引き起こす。この制約を克服するため、我々は Contrastive Distribution Matching (CDM) を導入する。これは、正例と負例のサンプルを通じてパラメータ化されたねじれ関数を学習することにより、SMC推論のコストを償却する新しい枠組みである。効率的な学習のために、勾配推定器を再構成し、離散拡散モデルの閉形式の前方カーネルを活用する。実際、学習したねじれ関数の評価にかかる追加計算オーバーヘッドは、ベースモデルの1回の順伝搬と比較して5%未満である。広範な実験評価を通じて、CDMが同一実経過時間条件下で既存のベースラインを一貫して上回ることを示す。我々は、有害テキスト生成、制御DNA配列設計、タンパク質設計可能性、拡散大規模言語モデルのアライメントなど、多様な応用課題において本手法の有効性と汎用性を検証する。