HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

49 papers found

クラスラベルからテキストへ：識別的なテキスト表現によるワンステップ画像生成の拡張
Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Apr 20

ByChenxi Zhao, Chen Zhu, Xiaokun Feng, Aiming Hao, Jiashu Zhu, Jiachen Lei, Jiahong Wu, Xiangxiang Chu, Jufeng Yang

数ステップ生成は長年追求されてきた目標であり、最近ではMeanFlowに代表されるワンステップ生成手法が注目すべき成果を上げている。既存のMeanFlow研究は主にクラスから画像への生成に焦点を当てている。しかし、固定されたクラスラベルから柔軟なテキスト入力を条件付けに拡張することで、より豊富なコンテンツ生成を可能とする方向性は直感的ながらも未開拓の領域である。限られたクラスラベルと比較して、テキスト条件はモデルの理解能力に対してより大きな課題を提起し、強力なテキストエンコーダをMeanFlowフレームワークに効果的に統合する必要がある。驚くべきことに、テキスト条件の組み込みは一見単純に見えるが、従来の学習戦略で強力なLLMベースのテキストエンコーダを統合しても満足のいく性能が得られないことが判明した。根本原因を解明するため詳細な分析を行った結果、MeanFlow生成における精練ステップ数が極めて限られている（例えば1ステップのみ）ため、テキスト特徴表現には十分に高い識別性が要求されることが明らかとなった。これは、離散的で識別が容易なクラス特徴がMeanFlowフレームワーク内で良好に機能する理由も説明している。これらの知見に基づき、我々は必要な意味的特性を備えた強力なLLMベーステキストエンコーダを活用し、MeanFlow生成プロセスをこのフレームワークに適応させることで、初めて効率的なテキスト条件付き合成を実現した。さらに、広く使用されている拡散モデルで本手法を検証し、生成性能が大幅に向上することを実証した。本研究が今後のテキスト条件付きMeanFlow生成研究に対する汎用的かつ実践的な指針を提供することを期待する。コードはhttps://github.com/AMAP-ML/EMFで公開されている。

OneVL: 視覚言語による説明を伴う一段階潜在推論と計画
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Apr 20

ByJinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen

Chain-of-Thought（CoT）推論は、VLAベースの自律走行における軌道予測の強力な推進力となっているが、その自己回帰的な性質がもたらす遅延コストがリアルタイム展開の障壁となっている。潜在CoT手法は、推論を連続的な潜在状態に圧縮することでこのギャップを埋めようとするが、明示的CoTの性能には一貫して及ばない。我々は、この原因が純粋に言語的な潜在表現が、運転を実際に支配する因果的ダイナミクスではなく、世界の記号的抽象化を圧縮している点にあると考える。そこで本論文では、推論を双対の補助デコーダで監視されるコンパクトな潜在トークン経由で行う統合VLA・世界モデルフレームワーク「OneVL」を提案する。テキストCoTを再構築する言語デコーダに加えて、未来フレームのトークンを予測する視覚的世界モデルデコーダを導入し、潜在空間に道路構造・エージェント動作・環境変化の因果的ダイナミクスを内在化させる。3段階の訓練パイプラインにより、これらの潜在表現を軌道・言語・視覚の目的に段階的に整合させ、安定した共同最適化を実現する。推論時には補助デコーダを除去し、全ての潜在トークンを単一の並列処理で事前に埋めることで、回答のみの予測と同等の速度を実現する。4つのベンチマークにおいて、OneVLは潜在CoT手法として初めて明示的CoTを凌駕し、回答のみの遅延時間で最先端の精度を達成した。これは、言語と世界モデルの双方による監督の下では、冗長なトークン単位の推論よりも一般化性の高い表現が、より緊密な圧縮によって生み出されることを直接示唆している。プロジェクトページ: https://xiaomi-embodied-intelligence.github.io/OneVL

エージェント・ワールド：進化する汎用エージェント知能のための実世界環境合成のスケーリング
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Apr 20

ByGuanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou

大規模言語モデルは、外部の状態を持つツール環境と相互作用する汎用エージェントとして機能することがますます期待されている。モデルコンテキストプロトコル（MCP）と広範なエージェントスキルは、エージェントとスケーラブルな実世界サービスを接続する統一インターフェースを提供するが、堅牢なエージェントの訓練は、現実的な環境の不足と生涯学習の体系的なメカニズムによって制限されている。本論文では、スケーラブルな環境を通じて汎用エージェント知能を進化させる自己進化型訓練環境「Agent-World」を提案する。Agent-Worldは主に2つの構成要素から成る：（1）トピック整合型データベースと実行可能なツールエコシステムを数千の実世界環境テーマから自律的に探索し、検証可能な難易度制御タスクを合成する「エージェント環境・タスク発見機構」、（2）複数環境強化学習と、動的タスク合成によって能力ギャップを自動特定し標的学習を促進する自己進化型エージェントアリーナを組み合わせた「継続的自己進化エージェント訓練」。23の挑戦的エージェントベンチマークにおいて、Agent-World-8Bおよび14Bは強力なプロプライエタリモデルと環境スケーリングベースラインを一貫して上回った。さらに詳細分析により、環境多様性と自己進化ラウンドに関連するスケーリング特性を明らかにし、汎用エージェント知能構築への示唆を提供する。

OpenGame：ゲームのためのオープンエージェントコーディング
OpenGame: Open Agentic Coding for Games

Apr 20

ByYilei Jiang, Jinyuan Hu, Qianyin Xiao, Yaozhi Zheng, Ruize Ma, Kaituo Feng, Jiaming Han, Tianshuo Peng, Kaixuan Fan, Manyuan Zhang, Xiangyu Yue

ゲーム開発は、創造的なデザインと複雑なソフトウェア工学の交差点に位置し、ゲームエンジン、リアルタイムループ、多数のファイルにわたる緊密に結合された状態の協調的な統合を要求する。大規模言語モデル（LLM）やコードエージェントは現在、個別のプログラミングタスクを容易に解決するが、高レベルなデザインから完全にプレイ可能なゲームを生成するよう求められると、ファイル間の不整合、シーン配線の破綻、論理的不整合によって一貫してつまずき、崩壊してしまう。我々はこの隔たりを埋めるため、エンドツーエンドのWebゲーム作成に特化した初のオープンソースエージェントフレームワークであるOpenGameを提案する。その中核には、ゲームスキルと呼ばれる再利用可能で進化する能力がある。これは、経験からプロジェクトの骨格ライブラリを成長させるテンプレートスキルと、検証済み修正の動的プロトコルを維持するデバッグスキルで構成され、エージェントが安定したアーキテクチャを足場組みし、孤立した構文バグの修正ではなく統合エラーを体系的に修復することを可能にする。このフレームワークを支えるのは、継続的事前学習、教師ありファインチューニング、実行に基づく強化学習という3段階のパイプラインを通じてゲームエンジンの習得に特化したコードLLM、GameCoder-27Bである。インタラクティブなプレイ可能性の検証は静的コードのチェックよりも本質的に困難であるため、ヘッドレスブラウザ実行とVLM判定により、ビルド健全性、視覚的可用性、意図整合性の観点からエージェントによるゲーム生成を評価するOpenGame-Benchも導入する。150の多様なゲームプロンプトにわたる評価で、OpenGameは新たな最先端を確立した。我々はOpenGameがコードエージェントを個別のソフトウェア工学問題の枠を超え、複雑でインタラクティブな実世界アプリケーションの構築に向けて推進することを期待する。本フレームワークは完全にオープンソース化される。

MultiWorld: スケーラブルなマルチエージェント・マルチビュー映像ワールドモデル
MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Apr 20

ByHaoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu

ビデオ世界モデルは、ユーザーやエージェントの行動に対する環境のダイナミクスをシミュレートする分野で顕著な成功を収めています。これらは、履歴フレームと現在の行動を入力として受け取り、将来のフレームを予測する行動条件付きビデオ生成モデルとして構築されます。しかし、既存手法の多くは単一エージェントのシナリオに限定されており、実世界のマルチエージェントシステムに内在する複雑な相互作用を捉えることができません。本論文では、マルチエージェントのマルチビュー世界モデリングのための統一フレームワークであるMultiWorldを提案します。本手法は、マルチビュー一貫性を維持しつつ、複数エージェントの正確な制御を可能にします。精密なマルチエージェント制御性を実現するためのマルチエージェント条件モジュールと、異なるビュー間で一貫した観測を保証するグローバル状態エンコーダを導入します。MultiWorldはエージェント数とビュー数の柔軟なスケーリングをサポートし、高効率のために異なるビューの合成を並列処理します。マルチプレイヤーゲーム環境とマルチロボット操作タスクにおける実験により、MultiWorldがビデオの忠実度、行動追従能力、マルチビュー一貫性においてベースライン手法を上回ることを実証します。プロジェクトページ: https://multi-world.github.io/

EasyVideoR1: 映像理解のためのより簡単な強化学習
EasyVideoR1: Easier RL for Video Understanding

Apr 18

ByChuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang

検証可能な報酬からの強化学習（RLVR）は、大規模言語モデルの推論能力を向上させる上で顕著な効果を実証してきた。モデルがネイティブにマルチモーダルなアーキテクチャへ進化する中、RLVRを映像理解に拡張することの重要性が高まっているが、以下の理由からほとんど未開拓の領域である。すなわち、映像タスクの種類の多様性、高次元の視覚入力を繰り返しデコード・前処理する計算コスト、そして多数の敏感なハイパーパラメータにわたる再現性のある評価の難しさが障壁となっている。既存のオープンソースRLトレーニングフレームワークはテキストおよび画像シナリオに対する堅牢なインフラを提供するが、映像モダリティに特化した体系的な最適化を欠いている。本研究では、映像理解タスクにおいて大規模視覚言語モデルを訓練するために特別に設計された、完全かつ効率的な強化学習フレームワーク「EasyVideoR1」を提案する。EasyVideoR1の主な貢献は以下の通りである：（1）冗長な映像デコードを排除し、スループットを1.47倍向上させるオフライン前処理とテンソルキャッシュを備えた完全な映像RLトレーニングパイプライン、（2）11の異なる映像および画像問題タイプを統一的にルーティングしモジュール拡張可能な包括的タスク対応報酬システム、（3）厳選された高品質軌道と方策オン探索を組み合わせ、より困難なタスクの学習を促進する混合オフライン・オンラインデータ訓練パラダイム、（4）独立に設定可能なピクセル予算による画像と映像の共同訓練により、二つのモダリティが相互に補強し合う仕組み、（5）22の主流な映像理解ベンチマークを網羅し、再現精度が公式報告値に極めて近い非同期マルチベンチマーク評価フレームワーク。

GFT：模倣学習から報酬ファインチューニングへ――不偏的なグループ優位性と動的係数補正によるアプローチ
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Apr 15

ByWangjie Gan, Miao Pan, Linbo Xi, Wenqi Zhang, Jintao Chen, Jianwei Yin, Xuhong Zhang

大規模言語モデルは通常、教師ありファインチューニング（SFT）と強化学習（RL）を用いた事後学習が行われるが、効率的な知識注入とロバストな汎化性能を統合することは依然として課題である。本研究では、訓練ダイナミクス分析を通じて、SFTが極めて疎な暗黙的報酬と不安定な逆確率重み付けを伴う方策勾配最適化の特殊ケースと解釈できることを示す。これらが組み合わさることで、単一路依存性、エントロピー崩壊、勾配爆発が生じる。この分析に基づき、我々はGroup Fine-Tuning（GFT）を提案する。これは2つのメカニズムを通じてこれらの本質的限界に対処する統一的事後学習フレームワークである：多様な応答グループを構築し正規化された対照的監督を導出することで報酬の疎性を緩和する「Group Advantage Learning」と、逆確率重みを適応的に制限することで効率的な知識注入を維持しつつ最適化を安定化する「Dynamic Coefficient Rectification」である。実験結果から、GFTがSFTベースの手法を一貫して上回り、後続のRL訓練との統合がより円滑な方策を生み出すことが実証された。

WebCompass: コード言語モデルのためのマルチモーダルWebコーディング評価に向けて
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

Apr 20

ByXinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu

大規模言語モデルは、エンドツーエンドのWebコーディングが可能な対話型コーディングエージェントへと急速に進化している。しかし、既存のベンチマークはこの能力のごく一部、典型的にはテキスト条件付き生成と静的正確性指標のみを評価しており、視覚的忠実度、インタラクションの質、コードベースレベルの推論はほとんど測定されていない。本論文では、Webエンジニアリング能力の統合的なライフサイクル評価を提供するマルチモーダルベンチマーク「WebCompass」を提案する。実世界のWebコーディングが、生成、編集、修正の反復的サイクルであることを踏まえ、WebCompassは3つの入力モダリティ（テキスト、画像、動画）と3つのタスクタイプ（生成、編集、修正）を網羅し、専門的なワークフローを反映した7つのタスクカテゴリを構成する。マルチステージかつヒューマンインザループのパイプラインを通じて、15の生成ドメイン、16の編集操作タイプ、11の修正欠陥タイプをカバーするインスタンスを精選し、それぞれにEasy/Medium/Hardの難易度注釈を付与した。評価においては、編集と修正タスクにはチェックリスト誘導型のLLM-as-a-Judgeプロトコルを採用し、生成タスクには新規のAgent-as-a-Judgeパラダイムを提案する。後者は、生成されたWebサイトを実ブラウザで自律的に実行し、Model Context Protocol (MCP) を介して対話的挙動を探索し、反復的に特定のテストケースを合成することで、人間の受け入れテストに近似した評価を実現する。代表的なクローズドソースおよびオープンソースモデルを評価した結果、(1) クローズドソースモデルは依然として大幅に強力かつバランスが取れている、(2) 編集と修正は異なる難易度プロファイルを示し、修正はインタラクティブ性の維持に優れるが実行難易度が高い、(3) 美的品質が最も持続的なボトルネックであり、特にオープンソースモデルで顕著である、(4) フレームワークの選択が結果に大きく影響し、Vueは一貫して難易度が高く、ReactとVanilla/HTMLはタスクタイプに応じて強く機能する、という知見が得られた。

ClawEnvKit: 鉤爪型エージェント向け自動環境生成システム
ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Apr 20

ByXirui Li, Ming Li, Derry Xu, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh, Tianyi Zhou

鉤爪型エージェントの訓練と評価環境の構築は、現在も人手に依存した手動プロセスであり、スケーラビリティに欠ける。我々は、単なるデータセットではなく、多様で検証済みの環境をオンデマンドで生成可能な自動化パイプラインが必要であると主張する。この目的に向け、自然言語記述からこの形式論を具現化する自律生成パイプライン「ClawEnvKit」を提案する。本パイプラインは3つのモジュールで構成される：(1)自然言語入力から構造化生成パラメータを抽出するパーサ、(2)タスク仕様・ツールインターフェース・評価設定を生成するジェネレータ、(3)生成環境の実現可能性・多様性・構造的正当性・内部一貫性を検証するバリデータである。ClawEnvKitを用いて、24カテゴリ1,040環境から成る初の大規模鉤爪型エージェントベンチマーク「Auto-ClawEval」を構築した。実験では、Auto-ClawEvalが人手編集環境と同等以上の一貫性・明確性を13,800分の1のコストで実現。4モデルファミリー・8種類のエージェントハーネスフレームワークで評価した結果、(1)ハーネス設計がReActベースライン比最大15.7%の性能向上をもたらす、(2)完了率が主要な差異要因でありベンチマークを飽和させるモデルは存在しない、(3)自動生成により従来不可能だった規模での評価が可能となる、ことが明らかになった。ClawEnvKitは静的ベンチマークを超え、自然言語で所望の能力を記述するだけで検証済み環境を即時提供する「ライブ評価」を実現。評価を継続的でユーザ主導のプロセスへと転換する。同メカニズムはオンデマンド訓練環境ジェネレータとしても機能し、既存ユーザログに限定されずエージェントの現行弱点に適応するタスク分布を生成する。

弱教師あり学習による推論能力をLLMはいつ獲得できるか？
When Can LLMs Learn to Reason with Weak Supervision?

Apr 20

BySalman Rahman, Jingyan Shen, Anna Mordvina, Hamid Palangi, Saadia Gabriel, Pavel Izmailov

大規模言語モデルは、検証可能な報酬を用いた強化学習（RLVR）を通じて推論能力の著しい向上を達成してきた。しかし、モデルの能力が高まるにつれ、高品質な報酬信号の構築は次第に困難になっており、弱い監督条件下でもRLVRが成功する条件を理解することが不可欠である。我々は、3つの弱い監督設定（データ不足、ノイズの多い報酬、自己監督的代理報酬）において、様々なモデルファミリーと推論領域にわたる系統的な実証研究を実施した。その結果、一般化能力は訓練報酬の飽和ダイナミクスによって支配されていることが明らかになった。一般化するモデルは、訓練報酬と下流課題の性能が共に上昇する飽和前段階が長期にわたって持続する一方、急速に飽和するモデルは学習ではなく記憶に依存する。我々は、中間ステップが最終回答を論理的に支持する程度として定義される推論の忠実性が、モデルがどちらの体制に分類されるかを予測するRL前の特性であることを特定し、出力の多様性だけでは情報とならないことを示した。これらの知見に基づき、継続事前学習と教師ありファインチューニングの寄与を分離した結果、明示的な推論過程に対するSFTが弱い監督下での一般化に必要である一方、領域データによる継続事前学習はその効果を増幅することがわかった。Llama3.2-3B-Baseにこれらの介入を併用することで、基本モデルが従来失敗していた3つの設定すべてにわたる一般化が可能となった。

SkillFlow: 自律エージェントの生涯スキル発見と進化のベンチマーク
SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Apr 19

ByZiao Zhang, Kou Shi, Shiting Huang, Avery Nie, Yu Zeng, Yiming Zhao, Zhen Fang, Qishen Su, Haibo Qiu, Wei Yang, Qingnan Ren, Shun Zou, Wenxuan Huang, Lin Chen, Zehui Chen, Feng Zhao

自律エージェントの能力フロンティアが拡大を続ける中、プラグアンドプレイ型の外部スキルを通じて専門タスクを遂行できる場面が増えている。しかし、現在のベンチマークの多くは、モデルが提供されたスキルを利用できるかどうかをテストするにとどまり、経験からスキルを発見できるか、失敗後に修復できるか、時間の経過とともに首尾一貫したライブラリを維持できるかについては未検証のままである。本研究ではSkillFlowを紹介する。これは20のファミリーにわたる166タスクからなるベンチマークであり、各ファミリー内でのタスク構築は、エージェントのワークフローフレームワークを定義するドメイン非依存実行フロー（DAEF）に従う。これにより、これらのタスクは一貫したワークフローを共有する。エージェントは、エージェント的生涯学習プロトコルの下で評価される。このプロトコルでは、エージェントはスキルなしで開始し、各ファミリー内でタスクを逐次解決し、軌道および評価基準駆動によるスキルパッチを通じて学んだことを外部化し、更新されたライブラリを引き継いでいく。実験結果は、能力に大きな隔たりがあることを明らかにする。Claude Opus 4.6では、生涯にわたるスキル進化により、タスク成功率が62.65%から71.08%（+8.43ポイント）に向上した。しかし、スキル使用率が高いことが必ずしも高い有用性を意味しない。Kimi K2.5は66.87%のスキル使用率にもかかわらず、わずか+0.60ポイントの向上に留まり、Qwen-Coder-Nextは44.58%のタスク完了率に達するのみで、ベースライン設定と比較してむしろ後退した。SkillFlowは、この研究方向に対する構造化されたテストベッドと、生涯評価におけるスキル発見、パッチ適用、転移、およびそれらの失敗モードに関する詳細な実証分析を提供する。

B-空間における混雑：LoRAマージのための共有方向の較正
Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

Apr 18

ByYixuan Tang, Yi Yang

個別に学習されたLoRAアダプタの統合は、複数タスクの共同学習に代わる実用的な手法であるが、性能低下を招くことが多い。既存手法では、LoRAの更新量ΔW = BAを単一のオブジェクトとして扱い、2つのLoRA行列を区別しない。本論文では、LoRA統合時の干渉の主な原因が出力側行列Bにあることを明らかにする。異なるタスク間でBは少数の共通方向を反復利用する一方、Aははるかにタスク特異的である。その結果、統合後のアダプタはこれらの共通方向を過度に強調し、タスク特異的な情報が失われる。我々はPico（出力空間における統合前干渉補正）を提案する。これはデータを必要としない手法で、統合前にBの過剰共有方向を減衰させ、統合後の更新量を再スケーリングする。PicoはTask Arithmetic、TIES、TSV-Mなどの既存統合手法に直接組み込める。数学、コーディング、金融、医療分野の8つのベンチマークで、Picoは対応する基本手法より平均精度を3.4～8.3ポイント向上させ、最高の総合平均性能を達成した。またPicoにより、全タスクデータで学習したLoRAを統合アダプタが上回ることも可能となった。これらの結果は、2つのLoRA行列を別々に扱うことで統合が効果的に機能することを示唆する。

確実性の錯覚：方策オンライン蒸留における能力と較正の分離
The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Apr 18

ByJiaxin Zhang, Xiangyu Peng, Qinglin Chen, Qinyuan Ye, Caiming Xiong, Chien-Sheng Wu

オン方策蒸留（OPD）は、学習後言語モデルの重要なパラダイムとして注目を集めている。しかし我々は、普遍的な「誤較正のスケーリング則」を発見した：OPDはタスク精度を効果的に向上させる一方で、モデルを体系的な過信状態に陥らせるのである。この問題の根源は情報のミスマッチにある。教師の監督信号は学習時に利用可能な特権情報に基づいて形成されるのに対し、デプロイ時のモデルはデプロイ時のみの情報に基づいて信頼度を報告しなければならない。本論文ではこの視点を理論的に定式化し、教師条件付き成功率が一般にデプロイ時信頼度の有効な目標値ではなく、有益な特権情報がエントロピーの崩壊と体系的な楽観バイアスを引き起こすことを示す。この問題を解決するため、我々は較正を考慮したOPDフレームワーク「CaOPD」を提案する。CaOPDはモデルロールアウトから経験的信頼度を推定し、自己申告信頼度をこの学生モデルに基づく目標値で置き換え、修正された応答を同じ自己蒸留パイプラインを通じて蒸留する。様々なモデルとドメインでの実験により、CaOPDが競争力のある能力を維持しつつパレート最適な較正を達成し、分布外環境や継続学習下でも頑健に一般化することを示す。本研究は、能力の蒸留が較正された信頼度を保証するものではなく、信頼度を学習後の重要な目標として扱うべきであることを明らかにする。コード：https://github.com/SalesforceAIResearch/CaOPD

コンクリートジャングル：構成的理解のための具体性に基づく対照的ネガティブマイニングに向けて
Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Apr 14

ByEun Woo Im, Dhruv Madhwal, Vivek Gupta

視覚言語モデルは顕著な能力を示すが、構成論的推論に苦戦することが多く、語順や属性束縛に関する脆弱性を示す。この制約は、対照的事前学習において微妙な意味的変異を区別するために必要な情報豊富なサンプルの不足に起因する。ハードネガティブマイニングは有望な解決策を提供するが、既存の手法は、どの言語要素が修正を受けるかを決定する明示的なメカニズムを欠いている。生成アーキテクチャを設計する代わりに、本研究は語彙的具体性をネガティブサンプルの有効性を決定する基本的要因として確立する。高度に具体的な用語を変更することで、より顕著な構造的・視覚的差異が生まれ、大幅に強力な学習信号を提供する。この原理を活用し、知覚に根ざした概念を体系的に分離・操作するConcretePlantを提案する。InfoNCEの分析は、容易に区別可能なペアが最適化プロセスを不均衡に支配し、微妙な学習に利用可能な帯域幅を制限する深刻な勾配不均衡を明らかにする。この劣化を解決するため、マージンベースのアプローチを利用したCement損失を定式化する。心理言語学的スコアとサンプル難易度を相関させることで、この目的関数は個々の訓練ペアに適用されるペナルティを動的に調整する。包括的評価はこれらの理論的主張を実証する。Slipformと命名された統合フレームワークは、多様な構成論的評価ベンチマーク、一般的なクロスモーダル検索、単一および複数ラベル線形 probing において、最先端の精度を達成する。

コンピュータ利用エージェントの信頼性について
On the Reliability of Computer Use Agents

Apr 20

ByGonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang

コンピュータ利用エージェントは、ウェブナビゲーション、デスクトップ自動化、ソフトウェア操作といった現実世界のタスクにおいて急速に進化し、場合によっては人間のパフォーマンスを凌駕するまでになっている。しかし、タスクとモデルが変わらない状況であっても、一度成功したエージェントが同じタスクを繰り返し実行した際に失敗することがある。これは根本的な疑問を提起する：もしエージェントが一度タスクを成功させられるのであれば、何が信頼性の高い遂行を妨げているのか？本研究では、コンピュータ利用エージェントの信頼性低下の要因を、（1）実行中の確率性、（2）タスク指定の曖昧さ、（3）エージェント挙動の変動性、という3つの要素を通じて検証する。OSWorld環境において同一タスクを反復実行し、設定間のタスクレベルの変化を捉える対応のある統計検定を用いてこれらの要素を分析する。分析結果から、信頼性はタスクの指定方法とエージェントの挙動が実行間でどのように変動するかの両方に依存することが明らかとなった。これらの知見は、エージェントを反復実行条件下で評価すること、エージェントが対話を通じてタスクの曖昧さを解消できるようにすること、および実行間で安定した戦略を優先することの必要性を示唆している。

MathNet: 数学的推論と検索のためのグローバルマルチモーダルベンチマーク
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Apr 20

ByShaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba

数学的問題解決は、大規模言語モデルやマルチモーダルモデルにとって依然として推論能力の難しい試験領域であるが、既存のベンチマークはデータサイズ、言語カバレッジ、課題の多様性において限界がある。本研究では、MathNetを紹介する。これは生成モデルの数学的推論評価と、埋め込みベースシステムの数学的検索評価のための、高品質で大規模、マルチモーダル、多言語のオリンピアード級数学問題データセット及びベンチマークである。MathNetは47カ国、17言語、20年にわたる競技会を網羅し、様々な分野にわたる30,676問の専門家執筆問題と解答を含む。コアデータセットに加えて、人間の専門家によって選定された数学的に等価かつ構造的に類似した問題ペアから構成される検索ベンチマークを構築した。 MathNetは3つのタスクをサポートする：(i) 問題解決、(ii) 数学的検索、(iii) 検索拡張問題解決。実験結果では、最先端の推論モデル（Gemini-3.1-Proで78.4%、GPT-5で69.3%）でさえ依然として課題が残り、埋め込みモデルは等価問題の検索に苦戦することが示された。さらに、検索拡張生成の性能は検索品質に強く影響され、例えばDeepSeek-V3.2-Specialeは最大12%の向上を達成し、ベンチマークで最高スコアを獲得した。MathNetは最高品質の最大規模の数学オリンピアードデータセットと、数学的問題検索を評価する初のベンチマークを提供し、データセットとベンチマークはhttps://mathnet.mit.edu で公開している。

VoxMind: エンドツーエンドの対話エージェント音声対話システム
VoxMind: An End-to-End Agentic Spoken Dialogue System

Apr 17

ByTianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia, Jingyu Lu, Fan Zhuo, Xueyi Pu, Yangzhuo Li, Zhou Zhao

近年、エンドツーエンド音声対話モデルの発展により自然な対話が可能となった。しかし、ユーザーの要求が複雑化するにつれ、対話能力のみに依存するモデルでは対応が困難になりつつある。そこで、エージェント機能の統合が不可欠である。ツール利用機能を付与することで、モデルは知識の境界を拡張し、実世界のタスクをより効果的に解決できるようになる。しかし、既存研究は主に中核的な知覚・生成技術に集中しており、ツール拡張機能に関する探求は比較的限定的である。このギャップを埋めるため、我々はVoxMindを提案する。これはエンドツーエンド音声対話モデルに包括的なエージェント機能を付与する統合フレームワークである。我々が整備した470時間のAgentChatデータセットを活用し、「話す前に考える」機構を組み込むことで、モデルが計画と応答生成の重要な前提条件として構造化された推論を内在化できるようにした。さらに、大規模ツール統合による遅延ボトルネックを緩和するため、マルチエージェント動的ツール管理アーキテクチャを提案する。検索タスクを補助エージェントに非同期で委譲し、主モデルの推論軌跡に沿って調整することで、推論遅延とツールセット規模の結合を効果的に分離する。実験結果により、VoxMindがエージェント性能において顕著な改善を達成することが確認された。強力なベースラインと比較して、タスク達成率は34.88%から74.57%に向上し、音声エージェントタスクにおいてGemini-2.5-Proを上回りながら、一般的な対話品質も維持した。ソースコード及び関連データはhttps://github.com/MM-Speech/VoxMind で公開されている。

GenericAgent: 文脈的情報密度最大化によるトークン効率の良い自己進化型大規模言語モデルエージェント（V1.0）
GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)

Apr 18

ByJiaqing Liang, Jinyi Han, Weijia Li, Xinyi Wang, Zhoujia Zhang, Zishang Jiang, Ying Liao, Tingyun Li, Ying Huang, Hao Shen, Hanyu Wu, Fang Guo, Keyi Wang, Zhonghua Hong, Zhiyu Lu, Lipeng Ma, Sihang Jiang, Yanghua Xiao

長期的な視野を持つ大規模言語モデル（LLM）エージェントは、本質的にコンテキストの制約を受けます。相互作用が長くなるにつれて、ツールの記述、検索された記憶、生の環境フィードバックが蓄積され、意思決定に必要な情報が押し出されてしまいます。同時に、タスクから得られた有用な経験は、エピソードを跨いで失われることが多いです。我々は、長期的な性能はコンテキスト長によって決まるのではなく、有限のコンテキスト予算内でどれだけ意思決定に関連する情報が維持されるかによって決まると主張します。本論文では、単一の原理、すなわち「コンテキスト情報密度の最大化」を中心に構築された、汎用性の高い自己進化型LLMエージェントシステムであるGenericAgent（GA）を提案します。GAはこれを、密接に連携する4つのコンポーネントを通じて実現します。(1) インターフェースをシンプルに保つ最小限の原子的ツールセット、(2) デフォルトでは小さな高レベルなビューのみを表示する階層的なオンデマンドメモリ、(3) 検証済みの過去の軌跡を再利用可能な標準作業手順（SOP）と実行可能コードに変換する自己進化メカニズム、(4) 長時間の実行中に情報密度を維持するコンテキストの切り詰めと圧縮層です。タスク完了率、ツール使用効率、メモリ効率、自己進化、ウェブ閲覧において、GAは主要なエージェントシステムを一貫して上回りながら、大幅に少ないトークン数と相互作用で動作し、時間とともに進化し続けます。プロジェクト：https://github.com/lsdefine/GenericAgent

OmniScript: 長編映像コンテンツのための音響視覚的脚本生成に向けて
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Apr 13

ByJunfu Pu, Yuxin Chen, Teng Wang, Ying Shan

現在のマルチモーダル大規模言語モデル（MLLM）は短編動画の理解において顕著な能力を示しているが、長編の映像作品を時間的に裏付けられた詳細な脚本に変換することは依然として大きな課題である。本論文は、登場人物の行動、台詞、表情、音声キューを含む階層的でシーン単位の脚本生成を目的とする、新しいビデオ・ツー・スクリプト（V2S）タスクを提案する。これを促進するため、初の人手注釈によるベンチマークを構築し、時間的意識を持つ階層的評価フレームワークを提案する。さらに、長編ナラティブ理解に特化した80億パラメータのオムニモーダル（音声-視覚）言語モデルOmniScriptを提示する。OmniScriptは、プロットと登場人物の推論のための連鎖的思考に基づく教師付きファインチューニングを活用し、その後時間的に分割された報酬を用いた強化学習を行うという段階的なパイプラインで訓練される。大規模な実験により、OmniScriptはパラメータ効率が高いにもかかわらず、大規模なオープンソースモデルを大幅に上回り、時間的定位と多分野の意味的精度の両方において、Gemini 3-Proを含む最先端のプロプライエタリモデルに匹敵する性能を達成することが実証された。

エージェントは探求するがエージェントは無視する：LLMに欠ける環境への好奇心
Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Apr 19

ByLeon Engländer, Sophia Althammer, Ahmet Üstün, Matthias Gallé, Tom Sherborne

LLMベースのエージェントは、環境観察を推論に統合することが想定されている。すなわち、非常に関連性が高く予期しない情報を発見することは、モデルが自らの発見を活用することを自然に導くはずである。我々は、この想定が現在のLLMベースのエージェントには当てはまらないことを示す。これらのエージェントは、予期しない情報に対して反省したり反応したりするのに苦労する。3つのベンチマーク（Terminal-Bench、SWE-Bench、AppWorld）において、エージェント環境に完全なタスク解決策を注入し、意図的にタスクの解決策をモデルに提示した。Terminal-Benchではエージェントがこれらの解決策を実行の79-81%で発見するものの、それらを操作したり活用したりするのはわずか37-50%のケースに留まった。この隔たりはAppWorldで最も顕著であり、エージェントは90%以上の試行で「このタスクの完全な解決策を返す」と明記されたドキュメントを目にするにも関わらず、これを活用する試行は7%未満であった。我々は、エージェントが「環境的好奇心」—環境刺激に応答して、予期しないが関連性の高い観察を認識し調査する能力—を欠いていることを示す。環境的好奇心に影響を与える主要因として、エージェントのスキャフォールドで利用可能なツール、推論時の計算資源、学習データの分布の3つを特定した。我々の知見は、好奇心を最大化する構成が、改変されていないベンチマークにおいても最高のパフォーマンスを達成することを示している。しかし、共同で最適化されたエージェントでさえ、大多数の試行で発見された解決策を無視する。現在のエージェントは環境を利用して期待される情報を取得するが、自身の戦略を修正したり、有用な刺激を最大限に活用したりすることはない。

メタ学習によるインコンテキスト化が訓練不要の被験者間脳デコーディングを実現
Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Apr 9

ByMu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo

脳信号からの視覚的解読は、計算機科学と神経科学の学際的領域における核心的課題であり、神経表現と視覚の計算モデルを架橋する手法を必要とする。この分野全体の目標は、一般化可能で被験者横断的なモデルの実現である。この目標に対する主要な障壁は、個人間の神経表現の著しい変動性であり、これまで各被験者ごとに専用モデルの訓練や個別のファインチューニングを必要としてきた。この課題に対処するため、我々はfMRIからの意味的視覚解読において、一切のファインチューニングなしで新規被験者に一般化するメタ最適化アプローチを提案する。新規個人からの少数の画像-脳活動例に基づいて条件付けするだけで、本モデルはその個人特有の神経符号化パターンを迅速に推論し、頑健かつ効率的な視覚解読を可能にする。本手法は、新規被験者の符号化モデルの文脈内学習のために明示的に最適化され、符号化器を逆転させる階層的推論によって解読を実行する。第一に、複数の脳領域において、複数の刺激と応答からなる文脈を構築することで、ボクセル単位の視覚応答符号化器パラメータを推定する。第二に、複数のボクセルにわたる符号化器パラメータと応答値からなる文脈を構築し、集約的な機能的逆転を実行する。我々は、多様な視覚バックボーンにおいて、再訓練やファインチューニングなしで強力な被験者間・スキャナー間一般化を実証する。さらに、本手法は解剖学的な位置合わせや刺激の重複を必要としない。本研究は、非侵襲的脳解読のための一般化可能な基盤モデルに向けた重要な一歩である。

世界知識探索による報酬を用いない自発的自己進化のためのLLMエージェント訓練
Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Apr 20

ByQifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang

現在のエージェントの多くは、人間が定義した報酬とルールに従って「自己進化」を行っています。しかし、このプロセスは根本的に外部の監督に依存しており、人間の指導がなければ進化は停止します。本研究では、エージェントに内発的なメタ進化能力を付与し、タスク実行前に未経験の環境について自律的に学習する手法を提案します。この能力を習得させるため、エージェントが自己生成した世界知識が下流タスクの成功率をどの程度向上させるかを測定する、結果ベースの報酬メカニズムを設計しました。この報酬信号は学習フェーズでのみ使用され、モデルに効果的な探索と要約の方法を教えます。推論時には、エージェントは外部報酬や人間の指示を一切必要としません。内部パラメータを用いて未知環境に適応するための自律的な自己進化を自然に行います。この自律進化への転換をQwen3-30BとSeed-OSS-36Bに適用した結果、WebVoyagerとWebWalkerにおいて20%の性能向上が確認されました。さらに驚くべきことに、生成された世界知識により、コンパクトな14BパラメータのQwen3モデルが、補助なしのGemini-2.5-Flashを凌駕する性能を示し、真に進化するエージェントの新たなパラダイムを確立しました。

戦略：軌道変調ゲーム自己対戦による転移可能な推論の学習
Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Apr 20

ByXiachong Feng, Deyi Yin, Xiaocheng Feng, Yi Jiang, Libo Qin, Yangfan Ye, Lei Huang, Weitao Ma, Qiming Li, Yuxuan Gu, Bing Qin, Lingpeng Kong

ゲームは、戦略的計画、確率的推論、適応的意思決定を自然に要求するため、言語モデルにおける汎用的な推論能力の開発に説得力のあるパラダイムを提供する。しかし、既存の自己対戦アプローチは最終的なゲーム結果のみに依存しており、転移可能な推論パターンとゲーム固有のヒューリスティックを区別するメカニズムを欠いている。本研究では、推論転移における二つの根本的障壁、すなわち学習されたパターンがゲームの意味論に縛られる「ドメイン特異性」と、静的なゲーム環境が発展的な推論を育まない「文脈的停滞」に対処するSTRATAGEMを提案する。STRATAGEMは、推論転移係数を通じて抽象的でドメインに依存しない推論を示す軌道を選択的に強化するとともに、推論進化報酬により適応的推論の発達を促進する。数学的推論、汎用推論、コード生成のベンチマークによる実験では、特に多段階の推論が重要な競技レベルの数学において顕著な改善が確認された。 ablation研究と人間による評価は、両コンポーネントが転移可能な推論に寄与することを裏付けている。

マルチモーダルLLMにおける乗算：テキスト・画像・音声入力を用いた計算
Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Apr 20

BySamuel G. Balter, Ethan Jerzak, Connor T. Jerzak

マルチモーダルLLMは、様々なモダリティにわたる数値情報を正確に知覚できるにもかかわらず、同一の基礎的な算術問題が数字、数詞、画像、音声形式で提示された場合、正確な多桁乗算を実行できない。既存のベンチマークは、モダリティ間で体系的にペアリングされたインスタンスを欠くことが多いため、モデルファミリー内およびファミリー間の真の算術能力の限界を比較することが困難である。そこで我々は、桁数、数字の疎性、表現形式（数字対数詞など）、モダリティ（テキスト、レンダリング画像、音声）を因子として体系的に変化させ、再現可能な生成器からペアリングされたインスタンスを提供する、制御されたマルチモーダル乗算ベンチマークを提案する。また、演算回数のコンパクトで機構論的に動機づけられた代理指標として、総桁数と非零桁数の積で定義される算術負荷Cを定義する。評価全体を通じて、Cが増加するにつれて精度は急激に低下し、C > 100では多くの場合ほぼゼロに近づく。実際、Cはモダリティやモデルを超えて性能を予測し、決定係数R二乗はしばしば0.5を超え、中間的な算術ステップの数をカウントするより複雑な算術負荷測定値に近い値を示す。知覚と計算を分離した分解分析によれば、マルチモーダルでの性能低下は主に知覚的ではなく計算的である：知覚が一致するチェックでは、乗算精度が低下する場合でも、モデルはモダリティを問わずほぼ完璧（> 99%）の性能を発揮する。モデルがいつ失敗するかを測定するだけでなく、どのような手順に従う傾向があるかを探る。我々は、ヒューリスティック固有の推論プレフィックス（筆算乗算、分配則による分解、丸め/補正を含む）を評価する強制完了損失プローブを導入する。ここでは、テキストと視覚の両モダリティにおいて分解が好まれることがわかる。ヒューリスティック固有のLoRAアダプターはほぼ直交する更新を生成するが精度を低下させることから、ベースモデルが適切に調整された内部ルーターを維持していることが示唆される。

首の痛みを再考する：言語モデルのための意味論的推論ベンチマーク
Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models

Apr 17

ByYang Liu, Hongming Li, Melissa Xiaohui Qin, Qiankun Liu, Chao Huang

本研究では、言語モデル（LM）の意味的句処理タスクを評価するためのフレームワーク「SemanticQA」を提案する。本ベンチマークは、既存の多語表現（MwE）リソースを統合し、統一されたテストベッドとして再構築したものである。語彙的連語のような一般的な言語現象に加え、慣用句、複合名詞、動詞構文という3つの細分類を網羅している。SemanticQAを通じて、様々なアーキテクチャと規模のLMに対し、抽出・分類・解釈タスク、および連続的タスク構成の評価を実施した。その結果、特に意味推論を要するタスクにおいて性能に大幅なばらつきが見られ、LMの推論効率と意味理解に差異があることが明らかとなった。これは、非自明な意味的句に対する理解力を強化したLMの開発に向けた重要な知見を提供する。SemanticQAの評価フレームワークとデータはhttps://github.com/jacklanda/SemanticQA で公開されている。

精密デバッグベンチマーク：モデルはデバッグしているのか、それとも再生成しているのか？
Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Apr 19

ByWang Bill Zhu, Miaosen Chai, Shangshang Wang, Yejia Liu, Song Bian, Honghua Dong, Willie Neiswanger, Robin Jia

コード補完とは異なり、デバッグには故障箇所の特定と対象を絞った修正の適用が求められます。我々は、先進的なLLMがデバッグ中に正しいが過剰な修正を施したソリューションを再生成する頻度が高いことを観察しました。LLMが精密なデバッグにどれほど近づいているかを評価するため、任意のコーディングデータセットを精度評価対応のデバッグベンチマークに自動変換するPrecise Debugging Benchmark（PDB）フレームワークを提案します。PDBは、検証済みの原子バグを合成し、それらを複数バグプログラムに組み合わせることで、バグを含むプログラムを生成します。我々は、必要な修正がどれだけ行われたかを測定する編集レベル精度と、どの程度のバグが解決されたかを測定するバグレベル再現率という二つの新規指標を定義します。単一行バグに焦点を当てたPDB-Single-Hardと、複数行バグを対象としたPDB-Multiの二つの評価ベンチマークを公開しました。実験結果によれば、GPT-5.1-CodexやDeepSeek-V3.2-Thinkingのような先進モデルは、単体テストの合格率が76%以上に達する一方、最小限のデバッグを明示的に指示した場合でも、精度は45%未満に留まります。最後に、反復的かつエージェント的なデバッグ戦略が精度や再現率を大幅に改善しないことを示し、コーディングモデルの学習後パイプラインの再構築の必要性を浮き彫りにします。

テキスト優位性を超えて：オムニモーダル大規模言語モデルのモダリティ選好性の解明
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Apr 18

ByXinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han

ネイティブなオムニモーダル大規模言語モデル（OLLM）は、パイプラインアーキテクチャから統一された表現空間への移行を遂げている。しかし、このネイティブ統合は「モダリティ選好」という重要ながら十分に研究されていない現象を引き起こす。本論文ではまず、新たに構築した矛盾ベースのベンチマークとモダリティ選択率指標を用いて、OLLMのモダリティ選好を体系的に定量化する。代表的な10種のOLLMを評価した結果、従来の視覚言語モデル（VLM）に見られる「テキスト優位性」とは異なり、大半のOLLMが顕著な視覚選好を示すというパラダイムシフトを明らかにした。さらにそのメカニズム解明のため層別解析を実施し、モダリティ選好が静的な性質ではなく中後期層で漸進的に出現することを実証する。これらの知見に基づき、内部信号を活用してクロスモーダル幻覚を診断する手法を提案する。タスク特有のデータを必要とせず、3種の下流マルチモーダルベンチマークで競合性能を達成した。本研究は、より信頼性の高いOLLM構築に向けたメカニズムの解明と実用的ツールを提供する。コード及び関連リソースはhttps://github.com/icip-cas/OmniPreference で公開している。

MedConclusion: 構造化抄録からの生物医学的結論生成のためのベンチマーク
MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Apr 7

ByWeiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang

大規模言語モデル（LLM）は推論集約的な研究タスクにおいて広く探究されているが、構造化された生物医学的エビデンスから科学的結論を推論できるかを検証するリソースは依然として限られている。本研究では、生物医学的結論生成のための570万件のPubMed構造化抄録からなる大規模データセットMedConclusionを導入する。各インスタンスは抄録の結論以外のセクションと、著者によって執筆された元の結論をペア化しており、エビデンスから結論への推論に対する自然発生型の教師信号を提供する。MedConclusionは生物医学カテゴリやSJRなどのジャーナルレベルのメタデータも含み、生物医学分野横断的なサブグループ分析を可能にする。初期的研究として、結論生成と要約生成のプロンプト設定下で多様なLLMを評価し、出力を参照ベースの指標とLLM-as-a-judgeの両方で採点する。その結果、結論作成は要約作成とは行動的に異なること、強力なモデル群は現行の自動指標下で密にクラスタリングされること、評価者（judge）の同一性が絶対スコアを大きく変動させうることを明らかにした。MedConclusionは、科学的エビデンスから結論への推論を研究するための再利用可能なデータリソースを提供する。コードとデータはhttps://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion で公開されている。

River-LLM：KV共有に基づく大規模言語モデルのシームレスな早期終了
River-LLM: Large Language Model Seamless Exit Based on KV Share

Apr 20

ByYingtao Shen, An Zou

大規模言語モデル（LLM）は多様な領域で優れた性能を示す一方、高い推論遅延によって制約を受けるケースが増えている。早期終了（Early Exit）は、冗長な層を動的に迂回することで推論を加速する有望な解決策として登場した。しかし、デコーダのみのアーキテクチャでは、早期終了の効率性はKVキャッシュ欠如問題によって深刻なボトルネックに直面している。この問題は、スキップされた層が後続のトークンに必要な履歴状態を提供できないことに起因する。再計算やマスキングなどの既存の解決策は、大幅な遅延オーバーヘッドを生じるか、あるいは深刻な精度低下を招くため、理論的な層削減と実効的な速度向上の間の隔たりを埋められていない。本論文では、トレーニング不要のフレームワークであるRiver-LLMを提案する。これはシームレスなトークンレベルの早期終了を実現する。River-LLMは、軽量なKV共有型終端リバー（KV-Shared Exit River）を導入し、バックボーンで欠如したKVキャッシュが終了プロセス中に自然に生成・保持されるようにすることで、コストの高い回復操作を不要とする。さらに、デコーダブロック内の状態遷移の類似性を利用して累積KV誤差を予測し、精度の高い終了判断を導出する。数学的推論およびコード生成タスクにおける大規模な実験により、River-LLMが高い生成品質を維持しつつ、実効的な速度を1.71倍から2.16倍向上させることを実証した。

単一細胞CRISPR擾乱の幾何学的コヒーレンスが制御構造を明らかにし細胞ストレスを予測する
Geometric coherence of single-cell CRISPR perturbations reveals regulatory architecture and predicts cellular stress

Apr 17

ByPrashant C. Raju

ゲノム工学は塩基配列レベルの精度で著しい進歩を遂げているが、摂動後に細胞がとる転写産物動態の状態を予測することは未解決の問題である。単一細胞CRISPRスクリーニングは、細胞が非摂動状態からどの程度移動するかを測定するが、この効果の大きさは根本的な問いを無視している：細胞はともに移動するのか？一方の摂動が共有された軌跡に沿って細胞を一貫して駆動し、他方が発現空間全体に細胞を散乱させる場合、同じ大きさの2つの摂動は質的に異なる結果を生み出す。我々は、単一細胞摂動応答の方向的一貫性を、個々の細胞のシフトベクトルと平均摂動方向の間の平均コサイン類似度として定量化する幾何学的安定性指標「Shesha」を導入する。5つのCRISPRデータセット（CRISPRa、CRISPRi、プールドスクリーニングにわたる2,200以上の摂動）を横断して、安定性は効果の大きさと強く相関し（Spearman ρ=0.75-0.97）、較正済みのデータセット間相関は0.97であった。決定的に、これら2つの指標が分離する不一致事例は制御構造を明らかにする：CEBPAやGATA1などの多效性マスターレギュレーターは「幾何学的コスト」を払い、大きくも一貫性のないシフトを生み出す一方、KLF1などの系統特異的因子は緊密に調整された応答を生み出す。効果の大きさを統制した後、幾何学的不安定性はシャペロン活性の上昇（HSPA5/BiP；データセット間でρ_{部分}=-0.34および-0.21）と独立して関連し、高安定性/高ストレスクアドラントは系統的に減少していた。この大きさと安定性の関係は、scGPT基盤モデルの埋め込みにおいても持続し、それが線形射影ではなく生物学的状態空間の特性であることを確認する。摂動安定性は、スクリーニングにおけるヒット優先順位付け、細胞製造における表現型の品質管理、およびin silico摂動予測の評価における相補的な軸を提供する。

EvoMaster：大規模に進化する自律的科学エージェントを構築するための基盤的エージェントフレームワーク
EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

Apr 19

ByXinyu Zhu, Yuzhu Cai, Zexi Liu, Cheng Wang, Fengyang Li, Wenkai Jin, Wanxu Liu, Zehao Bing, Bingyang Zheng, Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xianghe Pang, Yaxin Du, Tingjia Miao, Yuzhi Zhang, Ruoxue Liao, Zhaohan Ding, Linfeng Zhang, Yanfeng Wang, Weinan E, Siheng Chen

大規模言語モデルとエージェントの融合は、科学発見の新たな時代「エージェント主導型科学」を触媒している。科学的方法論は本質的に反復的であるが、既存のエージェントフレームワークは静的な設計が主流で、適用範囲が狭く、試行錯誤から学習する能力を欠いている。この課題を解決するため、我々は大規模なエージェント主導型科学のための基盤的進化エージェントフレームワーク「EvoMaster」を提案する。継続的な自己進化を中核原理とするEvoMasterは、エージェントが仮説を反復的に改良し、自己批判を行い、実験サイクルを通じて知識を累積することを可能にし、人間の科学的探求を忠実に再現する。重要なのは、EvoMasterがドメイン非依存の基盤フレームワークとして設計されているため、極めて容易にスケールアップ可能である点だ。開発者は約100行のコードで任意の分野向けの高機能な自己進化型科学エージェントを構築・展開できる。EvoMaster上に構築したSciMasterエコシステムは、機械学習、物理学、一般科学などの分野で実証された。4つの権威あるベンチマーク（Humanity's Last Exam、MLE-Bench Lite、BrowseComp、FrontierScience）による評価では、EvoMasterはそれぞれ41.1%、75.8%、73.3%、53.3%の最先端スコアを達成。汎用ベースラインのOpenClawを+159%から+316%の相対改善で包括的に上回り、次世代自律科学発見の基盤フレームワークとしての有効性と汎用性を強固に立証した。EvoMasterはhttps://github.com/sjtu-sai-agents/EvoMaster で公開されている。

MARCO: セマンティック対応の見えない空間をナビゲートする
MARCO: Navigating the Unseen Space of Semantic Correspondence

Apr 20

ByClaudia Cuttano, Gabriele Trivigno, Carlo Masone, Stefan Roth

意味的対応における最近の進歩は、DINOv2と拡散バックボーンを組み合わせたデュアルエンコアアーキテクチャに依存している。これらの数十億パラメータモデルは精度が高い一方で、学習キーポイントを超える汎化性能に乏しく、ベンチマーク性能と実世界での有用性の間に隔たりが生じている。実世界では、問い合わせられる点が学習時に見た点と一致することは稀である。DINOv2を基盤として、我々はMARCOを提案する。これは、細粒度の位置特定と意味的汎化の両方を強化する新規学習フレームワークによって駆動される、汎化可能な対応のための統一モデルである。空間精度を高める粗密目的関数と、注釈付き領域を超えて疎な教師信号を拡張する自己蒸留フレームワークを組み合わせることで、本手法は少数のキーポイントを密で意味的に一貫性のある対応関係に変換する。MARCOは、SPair-71k、AP-10K、PF-PASCALにおいて新たなstate-of-the-artを達成し、その利得は細粒度位置特定閾値（+8.9 PCK@0.01）で増幅し、未見キーポイント（SPair-U: +5.1）およびカテゴリ（MP-100: +4.7）への汎化性能で最高の結果を示した。さらに、拡散ベースの手法と比較して3倍小さく、10倍高速である。コードはhttps://github.com/visinf/MARCO で公開されている。

セッション間パーソナライズされたツール呼び出しのための潜在的嗜好モデリング
Latent Preference Modeling for Cross-Session Personalized Tool Calling

Apr 20

ByYejin Yoon, Minseo Kim, Taeuk Kim

ユーザーはLLMベースのエージェントに対する要求において、ツール利用に必須の詳細情報を省略することが多く、結果としてツール使用時の入力が不完全に指定される。これはツール拡張エージェントにとって根本的な課題である。なぜなら、API実行には通常、完全な引数が必要であり、パーソナライズされたツール呼び出しの必要性が浮き彫りになるためである。この問題を研究するため、我々は265のマルチセッション対話から構成されるベンチマークMPTを導入する。これは、選好の想起（Preference Recall）、選好の帰納（Preference Induction）、選好の転移（Preference Transfer）という3つの課題をカバーする。さらに、ユーザーの選好を進化する仮説として表現する、テスト時記憶拡張手法PRefineを提案する。これは、生成・検証・洗練のループを通じて、過去の対話履歴から再利用可能な制約を抽出し、フル履歴プロンプティングに必要とされるトークンのわずか1.24%のみを使用しながら、ツール呼び出しの精度を向上させる。これらの結果は、エージェントシステムにおける堅牢なパーソナライゼーションには、ユーザーの選択結果だけでなく、その背後にある理由を捕捉するメモリが重要であることを示唆している。

感情支援対話における単一ターン内での複数支援戦略のモデリング
Modeling Multiple Support Strategies within a Single Turn for Emotional Support Conversations

Apr 20

ByJie Zhu, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Jinsong Su, Chi Zhang, Fang Kong

感情支援対話（ESC）は、共感的で支援的な対話を生成することで、苦悩を経験している個人を支援することを目的としています。従来の研究では、各支援者の発話が単一の戦略に対応すると通常想定されてきましたが、現実世界の支援的コミュニケーションでは、単一の発話内に複数の戦略が含まれることが頻繁にあります。本論文では、ESCタスクを、各発話が1つ以上の「戦略-応答」ペアを含み得る多戦略発話生成として再定義します。私たちは2つの生成手法を提案します：すべての戦略-応答ペアを単一のデコードステップで予測する「All-in-One」と、戦略-応答ペアを完了まで反復的に生成する「One-by-One」です。両手法は、強化学習による認知的推論でさらに強化され、戦略選択と応答構成を改善します。ESConvデータセットを用いて、発話レベルと対話レベルの両方の設定でモデルを評価します。実験結果は、私たちの手法が多戦略発話を効果的にモデル化し、支援の質と対話の成功度を向上させることを示しています。私たちの知る限り、本研究は単一発話内での複数支援戦略の使用が感情支援対話において実行可能であり有益であるという、初めての体系的な実証的証拠を提供します。すべてのコードとデータはhttps://github.com/aliyun/qwen-dianjin で公開予定です。

幾何学的カナリア：表現的安定性による操縦性の予測とドリフト検出
The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Apr 20

ByPrashant C. Raju

言語モデルの信頼性あるデプロイには、一見異なるが共通の幾何学的基盤を共有する二つの能力が求められる。すなわち、モデルが特定の行動制御を受け入れるかどうかを予測する能力と、その内部構造が劣化した時を検知する能力である。本論文では、表現のペアワイズ距離構造の一貫性である「幾何学的安定性」が両方の課題を解決することを示す。タスクに沿った幾何学的安定性を測定する教師ありShesha変種は、35～69の埋め込みモデルと3つのNLPタスクにわたり、線形 steerability をほぼ完璧に予測し（ρ=0.89-0.97）、クラス分離性を超えた独自の分散を捉える（偏相関ρ=0.62-0.76）。決定的な解離が明らかになった：教師なし安定性は実世界タスクにおける steering では完全に失敗し（ρ≈0.10）、制御可能性の予測にはタスクとの整合性が不可欠であることを示す。しかし、教師なし安定性はドリフト検出では優れており、学習後アライメント中にCKAと比べて最大2倍（Llamaでは最大5.23倍）の幾何学的変化を検出し、73%のモデルでより早期に警告を発し、Procrustesと比べて6倍低い誤警報率を維持する。教師あり安定性と教師なし安定性は合わせて、LLMデプロイメントライフサイクルのための相補的な診断手法を形成する。前者はデプロイ前の制御可能性評価、後者はデプロイ後のモニタリングに寄与する。

背景が重要になるとき：転送可能な攻撃による医療視覚言語モデルの破綻
When Background Matters: Breaking Medical Vision Language Models by Transferable Attack

Apr 19

ByAkash Ghosh, Subhadip Baidya, Sriparna Saha, Xiuying Chen

Vision-Language Models（VLM）は臨床診断においてますます利用が進んでいるが、その敵対的攻撃に対する頑健性はほとんど検証されておらず、重大なリスクをもたらしている。既存の医療分野における攻撃手法は、モデル窃取や敵対的ファインチューニングといった二次的な目的に焦点を当てたものが多く、自然画像からの転移可能な攻撃は臨床医が容易に検知可能な目立つ歪みを生じさせる。この問題に対処するため、我々はMedFocusLeakを提案する。これは、摂動を知覚不能に保ちつつ、誤った、しかし臨床的に妥当な診断を誘導する、高い転移性を持つブラックボックス型マルチモーダル攻撃手法である。本手法は、非診断的な背景領域に調整された摂動を注入し、注意散逸メカニズムを採用することでモデルの焦点を病変領域から逸らす。6つの医療画像モダリティにわたる広範な評価により、MedFocusLeakが最先端の性能を達成し、多様なVLMに対して誤解を招くが現実的な診断結果を生成することを示す。さらに、攻撃成功率と画像の忠実度を統合的に評価する新規指標を含む統一評価フレームワークを導入し、現代の臨床VLMの推論能力における重大な弱点を明らかにする。

MNAFT: 画像翻訳のためのマルチモーダル大規模言語モデルのモダリティニューロン考慮ファインチューニング
MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Apr 18

ByBo Li, Ningyuan Deng, Tianyu Dong, Shaobo Wang, Shaolin Zhu, Lijie Wen

マルチモーダル大規模言語モデル（MLLM）は印象的な能力を示す一方で、正確な画像翻訳に不可欠な画像内の細粒度テキスト情報を効果的に捉えることに課題を抱えている。これにより、画像翻訳における視覚的テキスト入力とテキスト入出力の間にモダリティギャップが生じることが多い。既存手法は主に指示チューニングに依存するが、事前学習済み知識のパラメータ冗長化リスクがあり、汎化性能を阻害する。この問題に対処するため、我々はモダリティニューロン考慮型ファインチューニング（MNAFT）を提案する。これは画像翻訳の強化のために、MLLM内の個々のニューロンの専門的役割を活用する新規アプローチである。MNAFTは、指示駆動型活性化分析を通じて視覚モジュールと言語モジュールの言語非依存ニューロンと言語特化ニューロンを特定し、様々な翻訳タスクにおけるそれらの重要性を評価する。その後、対象タスクに関連する選択層内の言語特化ニューロンと言語非依存ニューロンのパラメータのみを更新する選択的ファインチューニングを実施し、他のニューロンや層に符号化された知識を保持する。複数ベンチマークでの大規模な実験により、MNAFTがカスケードモデル、標準的な完全ファインチューニング、パラメータ効率型チューニング技術を含む最先端の画像翻訳手法を大幅に上回ることを実証した。さらに、ニューロン活性化の可視化やクラスタリングパターンを含む包括的分析を提供し、異なるニューロングループがマルチモーダル理解の仲介や正確な言語特化翻訳の促進において果たす役割に関する知見を提示する。

データ制約下における希少かつ突発的な脆弱性発見のモデリングと予測
Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Apr 17

ByCedric Bonhomme, Alexandre Dulaunoy

脆弱性に関連する活動の理解と予測は、サイバー脅威インテリジェンスにおける主要な課題である。本研究は、概念実証の公開、検出テンプレート、オンライン議論などの脆弱性目撃情報が、時間経過に伴って予測可能かどうかを調査する。テキスト記述から脆弱性の重大度を予測するTransformerベースのモデルであるVLAIに関する我々の以前の研究を基盤とし、重大度スコアが外生変数として時系列予測を改善できるかどうかを検証する。脆弱性ごとの目撃情報の短期予測に対して複数のアプローチを評価する。まず、log(x+1)変換およびVLAIから導出した重大度入力を適用したSARIMAXモデルと適用しないモデルをテストする。これらの調整による改善は限定的であるものの、SARIMAXは疎で短く、バースト性の高い脆弱性データには不適切なままである。実際には、予測が過度に広い信頼区間を生成し、非現実的な負の値を示す場合もある。目撃情報の離散的かつイベント駆動型の性質をより適切に捉えるため、ポアソン回帰などのカウントベースの手法を探究する。初期結果は、特に目撃情報を週次で集計した場合、これらのモデルがより安定し解釈可能な予測を生成することを示している。また、長い履歴系列を必要とせずに将来の活動を推定するための、短期予測視野に対する指数減衰関数など、より簡易な運用上の代替案についても議論する。全体として、本研究は、稀でバースト性の高いサイバーイベントの予測の可能性と限界の両方を明らかにし、予測分析を脆弱性インテリジェンスワークフローに統合するための実践的な指針を提供する。

MTR-DuplexBench: 全二重音声言語モデルにおける多回数対話の包括的評価に向けて
MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Apr 17

ByHe Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Haoli Bai, Shaohua Ma, Irwin King

フルデュプレックス音声言語モデル（FD-SLM）は、従来の半二重モデルと比較して、リアルタイムで発話が重なり合う会話的相互作用を可能にし、より動的なユーザー体験を提供する。しかし、既存のベンチマークは主に単一ラウンドの相互作用の評価に焦点を当てており、複数ラウンドにわたるコミュニケーションの複雑さを看過している。FD-SLMを複数ラウンド設定で評価するには、コミュニケーションにおける発話ターン境界の曖昧さや、モデル推論時の文脈の不整合など、重大な課題が存在する。また、既存のベンチマークは会話機能の評価のみに集中し、他の重要な側面を軽視しがちである。これらの課題を解決するため、我々はFD-SLMの包括的な複数ラウンド評価を目的とした新規ベンチマーク「MTR-DuplexBench」を提案する。MTR-DuplexBenchは、連続的なフルデュプレックス対話を個別の発話ターンに分割してターン毎の評価を行うだけでなく、会話機能、対話品質、指示追従性、安全性といった多様な評価側面を統合している。実験結果から、現状のFD-SLMは複数ラウンド及び多次元の評価において一貫した性能を維持するのに困難を伴うことが明らかとなり、本ベンチマークの必要性と有効性が示された。コード及びデータは以下で公開されている：https://github.com/ZhangHe0918/MTR-DuplexBench

Forge-UGC: ユニバーサルグラフコンパイラのためのFX最適化およびレジスタグラフエンジン
Forge-UGC: FX optimization and register-graph engine for universal graph compiler

Apr 14

BySatyam Kumar, Saurabh Jha

本論文では、ヘテロジニアスなアクセラレータハードウェア向けのトランスフォーマーデプロイメントのための4段階コンパイラであるForge-UGC（FX Optimization and Register-Graph Engine for Universal Graph Compilation）を提案し、Intel AI Boost NPU上で検証する。既存のOpenVINOやONNX Runtimeなどのフレームワークは、不透明なコンパイルパイプライン、限定的なパスレベルの可視性、弱いバッファ管理がしばしば見られ、これらは高いコンパイルコストとランタイムオーバーヘッドの原因となり得る。Forge-UGCは、グラフキャプチャ、最適化、中間表現のロワリング、バックエンドスケジューリングを分離したハードウェア非依存の設計によりこの問題に対処する。第1段階では、torch.exportを用いてATen演算子レベルでグラフをキャプチャし、RoPE（rotary position embeddings）、GQA（grouped-query attention）、SwiGLUといった現代的なトランスフォーマーコンポーネントを手動分解なしでサポートする。第2段階では、デッドコード除去、共通部分式除去、定数畳み込み、アテンション融合、演算子融合、レイアウト最適化の6つの最適化パスを適用し、グラフノード数を14.2%から21.9%削減する。第3段階では、最適化されたグラフを、明示的な仮想レジスタ割り当てを持つ型付き中間表現にロワリングする。第4段階では、ライブネス解析、線形走査バッファ割り当て（ピークバッファ数を30%から48%削減）、およびデバイスアフィニティスケジューリング（NPU-CPU間の遷移を42%から65%削減）を実行する。125Mから8Bパラメータにわたる6つのモデルファミリーをWikiText-103およびGLUEで評価した結果、Forge-UGCはOpenVINOおよびONNX Runtimeと比較して、コンパイル速度が6.9倍から9.2倍高速、推論レイテンシが18.2%から35.7%低減、推論あたりのエネルギー消費が30.2%から40.9%低減となった。忠実性は維持され、最大絶対ロジット差は2.1e-5未満、KLダイバージェンスは8.4e-9未満であった。さらに、NPUコンパイルパイプラインを体系的に評価するためのFusion Gain Ratio、Compilation Efficiency Index、およびパス単位実行プロファイリングを導入する。

RGxEStatを用いた遺伝子-環境相互作用の意義と安定性の解析
Significance and Stability Analysis of Gene-Environment Interaction using RGxEStat

Apr 3

ByMeng'en Qin, Zhe Li, Xiaohui Yang

遺伝子型と環境の交互作用（GxE）は、様々な環境下における遺伝子型の表現型発現に影響を与え、標的環境における表現型の予測可能性を低下させる。GxE相互作用の詳細な分析は、特定の環境条件下で遺伝的優位性または欠陥がどのように発現または抑制されるかを特定することを可能にし、それによって遺伝子選抜を促進し、育種作業を向上させる。本論文は、GxE相互作用研究における二つの主要なモデルを紹介する。具体的には、遺伝子またはGxE相互作用が表現型形質に有意に影響するかどうかを判断するための混合効果モデルに基づく有意性分析と、遺伝子と環境の相互作用関係および環境間における遺伝子型の相対的な優劣をさらに調査する安定性分析を含む。さらに本論文は、著者らによって開発され、上述のモデルの構築、求解、可視化を統合した軽量インタラクティブツールであるRGxEStatを紹介する。育種家や農学者が複雑なSASやRプログラミングを学ぶ必要性を排除するように設計されたRGxEStatは、効率的な育種データ分析のためのユーザーフレンドリーなインターフェースを提供し、研究サイクルを大幅に短縮する。コードとデータセットはhttps://github.com/mason-ching/RGxEStatで入手可能である。

再修理へ：時系列異常検出のための最小限ノイズ除去ネットワーク
Back to Repair: A Minimal Denoising Network\ for Time Series Anomaly Detection

Apr 19

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

我々はJuRe（Just Repair）を提案する。これは時系列異常検出のための最小限のノイズ除去ネットワークであり、重要な知見として「多様体射影原理を適切に実装した訓練目標があれば、構造的複雑性は不要である」ことを示す。JuReは隠れ次元128の単一のDepthwise-separable畳み込み残差ブロックから構成され、破損した時系列ウィンドウを修復するように訓練され、推論時にはパラメータ不要の構造的不一致関数でスコアリングされる。Attention機構、潜在変数、敵対的要素を一切使用していないにも関わらず、JuReはTSB-AD多変量ベンチマーク（AUC-PR 0.404、180系列、17データセット）で第2位、UCR単変量アーカイブのAUC-PR（0.198、250系列）で第2位を達成し、AUC-PRとVUS-PRの両方でニューラルベースラインをリードした。TSB-ADでの構成要素アブレーション研究では、訓練時のデータ破損が支配的要因であることが確認され（除去時のΔAUC-PR = 0.047）、検出品質を駆動するのはネットワーク容量ではなくノイズ除去目標であることが実証された。対比較ウィルコクソンの符号順位検定により、TSB-ADにおいて25のベースライン中21に対して統計的有意差が確認された。コードはhttps://github.com/iis-esslingen/JuRe で公開されている。

ターミナルレンチ：331の報酬ハッキング可能な環境と3,632のエクスプロイト軌跡からなるデータセット
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Apr 19

ByIvan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong

本論文では、広く利用されているオープンベンチマークから複製した、報酬ハッキングが実証可能な331のターミナルエージェントベンチマーク環境のサブセット「Terminal Wrench」を公開する。このデータセットには、3つのフロンティアモデル（Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4）において、3,632件のハック軌跡と2,352件の正当なベースライン軌跡が含まれる。各エントリには、検証器がどのようにバイパスされたかを示す完全な攻撃軌跡とともに、元のタスク定義が保存されている。意図通りに解決されなかったタスクの事例も含まれる。タスクは、システム管理、機械学習、ソフトウェアエンジニアリング、セキュリティ課題に及び、悪用手法は単純な出力偽装から、スタックフレームのイントロスペクション、標準ライブラリのパッチ適用、ルートキットスタイルのバイナリハイジャックまで多岐にわたる。決定的に重要な点は、これらの悪用が評価ハーネスではなく各タスクに特化しているため、修正が困難であることだ。また、監視可能性に関する調査も提示する。これは、ハック軌跡から推論痕跡を除去または削除した後、LLM判定器によってスコアリングするもので、思考連鎖が除去されると検出性能が有意に低下することを示している（AUCが0.97から0.92に低下）。本データセットはhttps://github.com/few-sh/terminal-wrench で公開されている。

『継続性レイヤー：知性が引き継ぐもののためのアーキテクチャが必要な理由』
The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

Apr 19

BySamuel Sameer Tanguturi

AIにおける最も重要なアーキテクチャ上の問題は、モデルの規模ではなく、モデルが理解した内容を継承する層が存在しないことである。セッションは終了し、コンテキストウィンドウは埋まり、メモリAPIはモデルが毎回ゼロから再解釈しなければならない断片的な事実を返す。その結果として、セッション単位では強力ながら、時間軸を超えると記憶喪失的な知性が生まれる。本ポジションペーパーは、この問題を解決する「継続性レイヤー」が、この分野がまだ構築していない最も重要なインフラストラクチャであり、その構築に向けたエンジニアリング作業が公開で始まっていると論じる。ここで述べられる特性の形式的評価フレームワークはATANTベンチマーク（arXiv:2604.06710）であり、250話のコーパスによる評価結果と共に別途公開されている。関連論文（arXiv:2604.10981）は、このフレームワークを既存のメモリ、長文コンテキスト、エージェントメモリのベンチマークと対比させている。本論文は、継続性を、メモリや検索とは区別される7つの必須特性を持つシステム特性として定義する。書き込み時の分解と読み取り時の再構築によってこの特性を実現するストレージプリミティブ（Decomposed Trace Convergence Memory）を説明する。エンジニアリングアーキテクチャを、神学におけるケノーシス（自己放棄）のパターンおよび象徴におけるアルファとオメガのパターンに対応づけ、この対応が比喩的ではなく構造的であると論じる。外部SDKからハードウェアノード、長期的な人間インフラへ至る4層の開発アークを提案する。モデルレイヤーを現在制約している物理的限界が、なぜ継続性レイヤーを新たに重要にするのかを検証する。そして、ガバナンスアーキテクチャ（プライバシーをポリシーではなく物理として実装し、交渉不能なアーキテクチャ上のコミットメントに対して創業者支配のクラス株式を設定すること）が製品そのものから切り離せないものであると論じる。

HSG: 双曲線空間シーングラフ
HSG: Hyperbolic Scene Graph

Apr 19

ByLiyang Wang, Zeyu Zhang, Hao Tang

シーングラフ表現は、物体とその関係をモデル化することで構造化された視覚理解を実現し、マルチビューおよび3次元シーン推論に広く用いられてきた。既存手法（例：MSG）は、対比学習と注意機構に基づく関連付けを用いて、ユークリッド空間内でシーングラフの埋め込みを学習する。しかし、ユークリッド幾何学は場所と物体間の階層的包含関係を明示的に捉えることができず、学習された表現の構造的一貫性を制限する。この問題に対処するため、我々は双曲空間でシーングラフの埋め込みを学習するHyperbolic Scene Graph（HSG）を提案する。双曲空間では幾何学的距離を通じて階層関係が自然に符号化される。実験結果から、HSGは強力な検索性能を維持しつつ階層構造の質を向上させることが示された。特にグラフレベル指標で最大の改善が観測され、HSGはPP IoUで33.17、Graph IoUで最高値の33.51を達成し、最良のAoMSG変種（25.37）を8.14上回り、シーングラフモデリングにおける双曲表現学習の有効性が明らかとなった。コード：https://github.com/AIGeeksGroup/HSG

LLMベースの高密度検索モデルの頑健性に関する研究：一般化性能と安定性の体系的分析
On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Apr 17

ByYongkang Li, Panagiotis Eustratiadis, Yixing Fan, Evangelos Kanoulas

デコーダのみの大規模言語モデル（LLM）は、高密度検索の基盤としてBERTスタイルのアーキテクチャに取って代わりつつあり、大幅な性能向上と広範な採用を実現している。しかし、こうしたLLMベースの検索モデルの頑健性は未だ十分に検討されていない。本論文では、最先端のオープンソースLLMベース高密度検索モデルの頑健性を、一般性と安定性という二つの相補的視点から初めて体系的に検証する。一般性については、30のデータセットに跨る4つのベンチマークで検索効果を評価し、線形混合効果モデルを用いて限界平均性能を推定し、内在的モデル能力とデータセットの不均質性を分離する。分析の結果、指示チューニングされたモデルは一般的に優れるものの、複雑な推論に最適化されたモデルは「特化の代償」を受けやすく、より広範な文脈では一般性が限定されることが明らかになった。安定性については、意図的でないクエリ変動（言い換え、誤字）と悪意のある敵対的攻撃（コーパス汚染）の両方に対するモデルの耐性を評価する。LLMベース検索モデルは、エンコーダのみのベースラインと比較して誤字やコーパス汚染に対する頑健性が向上しているものの、同義語置換などの意味的摂動には依然脆弱であることが分かった。さらに分析を進めると、埋め込み幾何学（角度均一性など）が語彙的安定性の予測信号を提供し、モデルサイズの拡大が一般に頑健性向上につながることが示唆された。これらの知見は、将来の頑健性を考慮した検索モデル設計と原理に基づくベンチマーク構築に貢献する。コードはhttps://github.com/liyongkang123/Robust_LLM_Retriever_Eval で公開されている。

KWBench: ナレッジワークにおける非指示的問題認識の測定
KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Apr 17

ByAnkit Maloo

我々は、大規模言語モデルにおけるプロンプトなし問題認識のベンチマークであるKWBench（Knowledge Work Bench）の初版を紹介する。既存のフロンティアベンチマークは飽和状態にあり、これまでの知識労働評価のほとんどは仕様に基づく情報抽出やタスク完遂に還元されてきた。KWBenchはその前段階、すなわち生の入力のみから状況の支配的構造を認識できるかに焦点を当てる。本ベンチマークは、調達、契約交渉、臨床薬学、組織政治、不正分析、インセンティブ設計など、実務家から収集した223のタスクで構成される。各タスクは形式的なゲーム理論的パターン（プリンシパル・エージェント問題、シグナリング、メカニズムデザインの失敗、戦略的省略、連合ダイナミクス、戦略的相互依存）を符号化し、専門家による状況解釈と予想される失敗モードを構造化された正解データとして保持する。モデルは、問題タイプの示されない生データとタスクプロンプトを受け取る。評価は、必須の共役チェックを通過要件とする3段階のルーブリックで行う。必須基準は、予測される誤ったアプローチを符号化している。 16のモデルを評価した結果、最高性能のモデルでもタスクの27.9%に合格した。上位2モデルの合格一致率は31.7%に留まった。上位8モデルでは、44タスクがちょうど1つのモデルにのみ解決され、上位8モデルをルーティングすることでベンチマークの50.7%をカバーでき、最高単体モデルの約2倍に達した。合格時における品質スコアは収束した（モデル間で約83%）が、無条件のスコアは収束しなかった。同一モデルは、質問されれば関連するゲーム理論的概念を正確に説明できるにもかかわらず、プロンプトなしではそれを適用できない。我々はKWBenchを公開し、フロンティアモデルの知識労働評価の在り方を転換する。すなわち、問題が枠組みを与えられた後にどれだけうまく実行するかだけでなく、状況のみから正しい問題を認識できるかどうかでモデルを評価するのである。

ドメイン特化型エージェントのための記号的防護柵：有用性を損なわずに安全性とセキュリティを強固に保証する手法
Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility

Apr 16

ByYining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner

ツールを通じて環境と対話するAIエージェントは強力なアプリケーションを可能にするが、高いリスクを伴うビジネス環境では、意図しない行動がプライバシー侵害や金銭的損失など、許容できない被害を引き起こす可能性がある。訓練ベースの手法やニューラルガードレールなどの既存の緩和策はエージェントの信頼性を向上させるが、保証を提供することはできない。本研究では、AIエージェントの強力な安全性とセキュリティを保証する実用的な手段として、記号的ガードレールを検討する。3部構成の研究では、80の最先端エージェント安全性・セキュリティベンチマークを系統的にレビューして評価対象ポリシーを特定し、記号的ガードレールで保証可能なポリシー要件を分析し、τ^2-Bench、CAR-bench、MedAgentBenchにおいて記号的ガードレールが安全性、セキュリティ、エージェント成功率に与える影響を評価する。ベンチマークの85%が具体的なポリシーを欠き、代わりに未定義の高次元目標や常識に依存していることがわかった。特定されたポリシーのうち、74%のポリシー要件は、しばしば単純で低コストなメカニズムを用いた記号的ガードレールで強制可能であった。これらのガードレールは、エージェントの有用性を損なうことなく安全性とセキュリティを向上させる。全体として、我々の結果は、記号的ガードレールが、特にドメイン特化型AIエージェントにおいて、一部の安全性・セキュリティ要件を保証する実用的で効果的な方法であることを示唆している。すべてのコードと成果物はhttps://github.com/hyn0027/agent-symbolic-guardrailsで公開している。

言語モデルを追跡書き換えによる不正な蒸留から保護する手法
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting

Apr 16

ByXinhang Ma, William Yeoh, Ning Zhang, Yevgeniy Vorobeychik

知識蒸留は、大規模言語モデル（LLM）の能力を、より小型で効率的な生徒モデルに転移させるために広く採用されている技術である。しかし、知識蒸留の不正利用は、先進的なモデル開発に費やされた多大な労力とコストに対して不当な利益を得る行為である。本研究では、教師モデルが生成する推論過程を改変する手法を検討し、不正な蒸留を阻止する以下の2つの目的を達成する。(1) 反蒸留（anti-distillation）、すなわち問い合わせ応答の学習有用性を低下させること、(2) API透かし（API watermarking）、すなわち生徒モデルに検証可能な署名を埋め込むことである。我々は、回答の正確性と意味的一貫性を保ちながら、教師の推論出力を動的に書き換える複数のアプローチを提案する。これらにはLLMの書き換え能力を活用する手法と、勾配ベースの技術を用いる手法が含まれる。実験結果から、単純な指示に基づく書き換えアプローチが、教師モデルの性能を維持あるいは向上させつつ、強力な反蒸留効果を発揮することが示された。さらに、本手法により埋め込まれた透かしが、実質的に誤検出なしに確実に検出可能であることも実証する。コードはhttps://github.com/xhOwenMa/trace-rewriting で公開されている。