HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

58 papers found

SWE-Explore: コーディングエージェントによるリポジトリ探索のベンチマーク
SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Jun 5

ByShaoqiu Zhang, Yuhang Wang, Jialiang Liang, Yuling Shi, Wenhao Zeng, Maoquan Wang, Shilin He, Ningyuan Xu, Siyu Ye, Kai Cai, Xiaodong Gu

リポジトリレベルのコーディングベンチマーク（SWE-benchなど）は、コーディングエージェントの能力を急速に向上させてきた。しかし、これらのベンチマークは通常、コーディングタスクを全体的な二値予測問題（解決済みか未解決かなど）として扱い、リポジトリ理解、コンテキスト検索、コード位置特定、バグ診断といった細粒度のエージェント能力を軽視している。本論文では、コーディングエージェントの重要な能力であるリポジトリ探索の評価を独立させたベンチマーク「SWE-Explore」を紹介する。SWE-Exploreは、リポジトリと課題が与えられた際に、探索器が固定の行数予算の下で関連するコード領域のランク付けされたリストを返すことを求める。SWE-Exploreは、10のプログラミング言語と203のオープンソースリポジトリにわたる848件の課題をカバーしている。各インスタンスに対して、同じ課題を解決した独立したエージェントの軌跡から行レベルの正解データを導出し、その解決経路が実際に参照した具体的なコード領域を抽出する。我々は、カバレッジ、ランキング、コンテキスト効率の各次元に沿って探索を評価し、これらの指標が下流の修正動作と強く相関することを示す。多様な検索手法、汎用コーディングエージェント、特化型ローカライザーにわたる評価の結果、エージェント型探索器は古典的な検索手法よりも明確に上位の層を形成することがわかった。現代の手法ではファイルレベルの位置特定は既に強力であるが、行レベルのカバレッジと効率的なランキングが、最先端の探索器を差別化する主要な軸であり続けている。

エージェントの最終試験
Agents' Last Exam

Jun 3

ByYiyou Sun, Xinyang Han, Weichen Zhang, Yuanbo Pang, Tianyu Wang, Yuhan Cao, Yixiao Huang, Chris Duroiu, Haoyun Zhang, Jeffrey Lin, Weishu Zhang, Tyler Zeng, Ying Yan, Bo Liu, Hanson Wen, Mingyang Xu, Xiaoyuan Liu, Zimeng Chen, Weiyan Shi, Amanda Dsouza, Vincent Sunn Chen, Patrick Bryant, Carl Boettiger, Yamini Rangan, Bradley Rothenberg, Kyle Steinfeld, Arvind Rao, Tapio Schneider, Georgios Yannakakis, Laure Zanna, Kaan Ozbay, Ida Sim, Tarek Zohdi, George Em Karniadakis, Jack Gallant, Teresa Head-gordon, Yushan Li, Wenxi Deng, Tao Sun, Huiqi Wang, Zhun Wang, Justin Xu, Chris Yuhao Liu, Yafei Cheng, Rongwang Hu, Aras Bacho, Shengcao Cao, Zengyi Qin, Yixiong Chen, Hengduan Fan, Hao Liu, Lin Zeng, Shashank Muralidhar Bharadwaj, Litian Gong, Yingxuan Yang, Maojia Song, Ruheng Wang, Zongzheng Zhang, Honglin Bao, Shuo Lu, Jianhong Tu, Zhonghua Wang, Zheng Zhang, Zijiao Chen, yanqiong Jiang, Zhendong Li, Bohan Lyu, Chang Ma, Peiran Xu, Benran Zhang, Shangding Gu, Haoyue Hua, Haoyang Li, Wanzhe Liao, Chengzhi Liu, Junbo Peng, Haoran Sun, Zechen Xu, Bo Chen, Jiayi Cheng, Yi Jiang, Keying Kuang, Yuan Li, Youbang Pan, Ziyan Rao, Alexander Schubert, Yifan Shen, Vincent Siu, Xiatao Sun, Kangqi Zhang, Xiaopan Zhang, Yuchen Zhu, Ishaan Singh Chandok, Lei Ding, Jingxuan Fan, Andrew Glover, Jiaming Hu, Yiran Hu, Wenbo Huang, Zixin Jiang, Haoran Jin, Lukas Kim, Ming Liu, Yang Liu, Alireza Rafiei, Xuhuan Shen, Kunyang Sun, Sophia Sun, Ting Sun, Eric Wang, Yixin Wang, Hanwen Xing, Sihan Xu, Yuzheng Xu, Zhongxing Xu, Zhiling Yan, Boqin Yuan, Ruiqi Zhang, Yifan Zhang, Zibo Zhao, Liana, Santanu Bosu Antu, Haoyue Bai, Carlo Bosio, Joseph Cavanagh, Patricia Cavazos-Rehg, Tianxing Chen, Xuewen Chen, Yipu Chen, Zhu Chenyu, Chen Dai, Stefano De Castro, Yunfu Deng, Kaustubh Dhole, Jiayuan Ding, Chenchen Du, Zhehang Du, Hao Fan, Run-ze Fan, Hengyu Fu, Shi Gu, Yifan Gu, Charlie Guo, Baihe Huang, Baixiang Huang, Rimika Jaiswal, Zhihan Jiang, Ran Jin, Erin Kasson, Xin Lan, Joseph Lee, Deren Lei, Chenyu Li, Daofeng Li, Haitao Li, Hongwei Li, Jingyan Li, Xiao Li, Yi Li, Yinsheng Li, Yuangang Li, Zhixu Li, Wenyu Liang, Longtai Liao, Kevin Qinghong Lin, AndyZeyi Liu, Che Liu, Jiaming Liu, Kaiyuan Liu, Xuan Liu, Pan Lu, Wenbo Lv, Yicheng Lv, Qiuyang Mang, Kyle Montgomery, Yuzhou Nie, Ruoxi Ning, Jorin Overwiening, Xu Pan, Layna Paraboschi, Core Francisco Park, Justin Purnomo, Swati Rajwal, Scott Rankin, Bixuan Ren, Yiren Rong, HaoYang Shang, Ventus Shaw, Fiona Shen, Jiawei Shen, Minqi Shi, Qiu Shi, Huaxiu Yao, Tianneng Shi, Jonah So, Vladislav Susoy, Hannah Szlyk, Haocheng Wang, Jialu Wang, Wei Wang, Xinyu Wang, Zehao Wang, Dowling Wong, Angela Wu, Dehao Wu, Fangyu Wu, Mengyuan "Millie" Wu, Yu Wu, Yuchen Wu, Yuhao Wu, Qingpo Wuwu, Weihang Xiao, Yongyi Xiong, Fan Xu, Ruiling Xu, Mingxuan Yan, Benjamin Yang, Jirong Yang, Sen Yang, Xiaoli Yang, Yushi Yang, Haoran Ye, Xiaohu Yu, Zhengming Yu, Chenlong Zhang, Chi Zhang, Hanning Zhang, Hanwen Zhang, Junge Zhang, Kunpeng Zhang, Song Zhang, Wenjin Zhang, Wenshuo Zhang, Ying Zhang, Yizhi Zhang, Brian Zhao, Qijian Zhao, Yimin Zhao, Yuhaohua Zheng, Liwei Zhou, Tianyue Zhou, Sichen Zhu, Siqi Zhu, Yan Zhu, Yishu Zhu, Jierui Zuo, Chonghao Cai, Helena Casademunt, Wenjia Chen, Benjamin Cheng, Nawen Deng, Rao Fu, Tianfu Fu, Yifan Han, Ren He, Zhenyu He, Qiao Jin, Lang Lang, Yuetai Li, Sylvia Liu, Lu Lu, Qing Lu, Subhabrata Mukherjee, Yunqi Ouyang, Yin Ren, Dawei Shi, Haoran Wu, Zhiyue Wu, Hannah Yao, Zhuoran Yi, Jenny Yu, Rhea Zhan, Hang Zhou, Blake Zhu, Junfan Zhu, Alan Yuille, Yang Liu, Russell Alan Poldrack, Jiachen Li, Zhenglu Li, Molei Tao, Jing Huang, Wenqi Shi, Costas Spanos, Lichao Sun, Chenguang Wang, Orson Xu, Zhen Dong, Hector Gomez, Aylin Caliskan, Ali Emami, Haimin Hu, Zhi Li, Lihui Liu, Murphy Niu, Yi Shao, Jianxin Sun, Mikko Tolonen, Ting Wang, Sanjiv Das, Yanjun Gao, Wenbo Guo, Erika J Schneider, Zhiyong Lu, Mark Mueller, Radha Poovendran, Somayeh Sojoudi, Dawn Song

近年のAIシステムは、多岐にわたるベンチマークで優れた成果を上げているが、これらの成果は多くの専門領域において経済的に意味のある展開には結びついていない。我々は、このギャップは主に評価の問題であると主張する。すなわち、広く使われているベンチマークは、現実的かつ経済的に価値のあるワークフローに対する持続的な性能測定を欠いているのである。本論文では、検証可能な成果を伴う長期的で経済的に価値のある現実世界のタスクにおいてAIエージェントを評価するために設計されたベンチマーク「Agents' Last Exam (ALE)」を紹介する。250名以上の業界専門家との協力により開発されたALEは、O*NET / SOC 2018（米国連邦職業分類）を参照して定義された非物理的な産業をカバーする。55のサブフィールドからなるタスク分類に基づいて構成されており、これらは13の産業クラスターにグループ化され、1,000以上のタスクを網羅している。現在の結果によると、最も難しい階層は依然として飽和状態には程遠い。主流のハーネスおよびバックボーン構成全体において、平均完全合格率は2.6%である。ALEは生きたベンチマークとして設計されており、新しいワークフローや業界が追加されるにつれてタスクプールは継続的に拡大する。より広く見れば、ALEは単なる新たなリーダーボードではなく、ベンチマークでの成功とGDPに関連する影響との間のギャップを埋めるための手段として意図されている。

オン方策蒸留の幾何学について
On the Geometry of On-Policy Distillation

Jun 5

ByZhennan Shen, Yanshu Li, Qingyu Yin, Chak Tou Leong, Zhilin Wang, Yanxu Chen, Rongduo Han, Sunbowen Lee, Yi R. Fung

オン方策蒸留（OPD）は大規模言語モデルの推論能力向上にますます用いられているが、その学習ダイナミクスは未だ十分に理解されていない。本稿では、パラメータ空間におけるOPD更新の軌跡を特徴づけ、教師ありファインチューニング（SFT）および検証可能報酬を用いた強化学習（RLVR）と比較する。一連のパラメータ空間診断により、OPDは一貫して緩やかな非主成分レジームに位置づけられる。すなわち、SFTと比較するとOPDの更新はより少ない重みに影響し、主方向をより強く回避する一方、RLVRと比較するとその制約はより緩い。この静的な局在性に加え、OPDは部分空間ロッキングを示す。すなわち、累積更新が急速に狭い低次元チャネルへと収束する。学習初期に形成された更新部分空間に学習を制限すると、OPDの性能は維持されるがSFTは大幅に低下する。これは、ロックされた部分空間がOPDにとって機能的に十分であることを示している。さらに制御実験により、更新トークンのスパース化やロールアウト生成のオフ・ポリシー化はランクダイナミクスを維持する一方、OPD目的とRLVRの混合はこれを変化させることが示された。以上より、OPDは単にSFTとRLVRの中間点ではなく、パラメータ空間において独自の更新幾何を誘導することが示唆される。

LatentSkill: LLMエージェントのためのコンテキスト内テキストスキルから重み内潜在スキルへ
LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

Jun 4

ByAofan Yu, Chenyu Zhou, Tianyi Xu, Zihan Guo, Rong Shan, Zhihui Fu, Jun Wang, Weiwen Liu, Yong Yu, Weinan Zhang, Jianghao Lin

エージェントシステムは、再利用可能なタスク手順をコード化するためにテキスト形式のスキルを利用することが増えているが、これらのスキルを毎ステップでプロンプトに注入すると、大きなコンテキストオーバーヘッドが発生し、スキル内容がプレーンテキストとして露出してしまう。本稿では、事前学習されたハイパーネットワークを介してテキスト形式のスキルをプラグアンドプレイのLoRAアダプターに変換するフレームワーク、LatentSkillを提案する。LatentSkillはスキル知識をコンテキスト空間ではなく重み空間に保存することで、毎ステップのスキルトークンを排除しつつ、モジュール式の読み込み、スケーリング、構成を維持する。ALFWorldおよびSearch-QAにおいて、LatentSkillは対応するコンテキスト内スキルベースラインを上回る性能を示し、かつ使用するプレフィルトークン数を大幅に削減する。具体的には、ALFWorldでは既知/未知の分割においてそれぞれ21.4ポイントおよび13.4ポイントの成功率向上を達成し、プレフィルトークン数を64.1%削減する。Search-QAでは完全一致スコアを3.0ポイント向上させ、スキルトークンオーバーヘッドを72.2%削減する。さらに分析により、生成されたスキルLoRAは構造化された意味幾何構造を形成し、LoRAスケーリング係数によって精密に制御可能であり、スキル構成要素が揃った場合にはパラメータ空間での演算を通じて合成できることが示された。これらの知見は、重み空間スキルがLLMエージェントを拡張するための効率的でモジュール化され、露出の少ない基盤を提供することを示唆している。

ビデオワールドモデルのための潜在空間記憶
Latent Spatial Memory for Video World Models

Jun 8

ByWeijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang

生成フレーム間で3D空間的一貫性を維持するビデオワールドモデルは、通常、RGB空間で構築された明示的な点群メモリに依存する。この設計は、繰り返しのレンダリングとVAEエンコーディングを必要とするため計算コストが高く、またピクセル空間を経由する往復が学習された潜在表現の豊かな特徴を捨ててしまうため、本質的に損失がある。本論文では、ビデオワールドモデルのための潜在空間メモリを導入する。これは永続的な3Dキャッシュであり、拡散潜在空間に直接シーン情報を格納することで、ピクセル空間での再構成を回避する。これに基づき、我々はMirageを提案する。Mirageは潜在空間における空間メモリフレームワークであり、深度誘導のバックプロジェクションにより潜在トークンを3Dにリフティングすることでメモリを構築し、直接的な潜在空間ワーピングによる新規視点合成によってそれをクエリする。この統一的な定式化により、ピクセル空間再構成の情報損失と、繰り返しのエンコーディングおよびレンダリングの計算負荷の両方が排除される。実験により、潜在空間メモリは明示的な3Dベースラインと比較して、エンドツーエンドのビデオ生成が最大10.57倍高速化され、メモリフットプリントが55倍削減されることが示された。拡散モデルの幾何学的事前知識を活用することで、MirageはWorldScoreで最先端の性能を達成し、RealEstate10Kで強力な再構成品質を実現する。

CoVEBench: 動画編集モデルは複雑な指示を処理できるか？
CoVEBench: Can Video Editing Models Handle Complex Instructions?

Jun 7

ByJiangtao Wu, Jiaming Wang, Yiwen He, Yuanxing Zhang, Shihao Li, Dunyuan Liu, Xuedong Zhao, Jialu Chen, Zekun Moore Wang, Jiaheng Liu

近年のテキスト誘導型動画編集モデルは、スタイル変換やオブジェクト挿入といった基本的なタスクでは優れた性能を発揮するものの、現実のユーザー要求は高度に複合的である。単一のプロンプトには、被写体・動作・カメラ視点の変更など、複数の連動した編集が求められることが多く、その一方で無関係な時空間コンテンツは厳密に保持しなければならない。既存のベンチマークは、単一編集と粗いグローバルメトリクスに強く制約されており、モデルがこのような複雑なワークフローをどのように扱うかを診断できていない。このギャップに対処するため、我々はCoVEBenchを提案する。これは416の厳選されたソース動画、626のマルチポイント編集指示、および9,990の詳細なチェックリスト項目から構成される複合的な動画編集ベンチマークである。多様な編集次元をカバーし、CoVEBenchはMLLMによる指示遵守度と動画忠実度の評価、および動画品質の自動メトリクスを用いてモデルを評価する。広範な実験により、複合的な編集が依然として深い課題であることが明らかになった。現在のモデルは、複数の操作を同時に処理する際に、編集を省略したり、保存制約に違反したり、アーティファクトを導入したりすることが頻繁に見られる。CoVEBenchは、現実的なユーザーワークフローに向けて動画編集を前進させるための、挑戦的かつ診断的なテストベッドを提供する。

FlashMemory-DeepSeek-V4: 先読みスパースアテンションによるライトニングインデックス超長コンテキスト
FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Jun 8

ByYan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

従来のLLMはデコード中に完全なKVキャッシュを保持しておくため、超長文コンテキストのサービス提供において深刻なGPUメモリのボトルネックを引き起こします。本レポートでは、DeepSeek-V4アーキテクチャに基づいたニューラルメモリインデクサーによって実現される新しい推論パラダイムである先読みスパースアテンション（LSA）を提案します。LSAは、過去のすべてのトークンを受動的にアテンションするのではなく、将来のコンテキスト需要を積極的に予測し、クエリに重要なKVチャンクのみをGPUメモリに保持します。重要な点として、私たちはこのアーキテクチャをバックボーンフリーの分離学習戦略によって具体化します。インデクサーを標準的なデュアルエンコーダアーキテクチャとして定式化することで、大規模なバックボーンモデルをGPUメモリにロードすることなく、標準的な検索学習フレームワークを使用して独立に学習します。この「Less is More」パラダイムは、長期グローバルメモリに依存するタスクにおいて効果的なアテンションデノイザーとして機能しながら、サービング効率を大幅に最大化することを実証します。主要な長文コンテキスト評価スイート（例：LongBench-v2、LongMemEval、RULER）において、FM-DS-V4は平均物理KVキャッシュフットプリントをフルコンテキストベースラインのわずか13.5%に圧縮し、下流タスクの精度を一貫して維持またはわずかに向上させます（平均絶対マージン+0.6%）。極めて重要な点として、500Kという極端なスケールにおいて、FlashMemoryは物理KVキャッシュのオーバーヘッドを90%以上抑制し、バックボーンのコア推論能力を不安定にすることはありません。

SpatialWorld: 実世界タスクにおけるマルチモーダルエージェントの対話的空間推論のベンチマーク
SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Jun 8

ByHongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

空間推論は、マルチモーダル大規模言語モデル（MLLM）が物理世界を知覚し、その中で動作するための基盤的な能力である。しかし、既存のベンチマークは主に受動的評価（静的VQAなど）やシミュレータ固有のパイプラインに依存しており、一般的な対話型空間理解を評価できていない。本稿では、複雑な実世界タスクにおけるマルチモーダルエージェントの対話型空間理解を評価するために特化設計された統一ベンチマークSpatialWorldを紹介する。SpatialWorldは、シミュレータに依存しない共有プロトコルの下で8つの異種シミュレーションバックエンドを統合し、家事ルーチン、旅行、社会的協力など多様なドメインにわたる760件の人手注釈付きタスクを備える。エージェントは視覚のみの部分観測下でタスクを解決しなければならず、能動的に一人称視点の視覚的証拠を収集し、MLLMにネイティブな統一テキストベースのアクションインタフェースを通じて決定を表現する。信頼性の高い評価のために、各タスクには人手検証済みの初期状態、参照軌跡、および終端状態検証器が含まれている。15の先進的エージェントを評価した結果、ロバストな空間タスク解決は依然として困難であることが明らかになった。最強モデルであるGPT-5の平均タスク成功率（TSR）はわずか17.4％であり、主要なオープンソースモデルであるQwen-3.5は14.1％に達した。さらなる分析により、タスク成功と実行効率の間には明らかな不一致があり、ドメイン固有の性能変動も顕著であることが判明した。これらの能動的探索と長期計画におけるボトルネックにより、SpatialWorldは将来の空間エージェントのための厳格なテストベッドとして位置づけられる。

人間用の心理測定質問票はLLMの振る舞いを誤って特徴づける
Human Psychometric Questionnaires Mischaracterize LLM Behavior

May 29

ByWoojung Song, Dongmin Choi, Yoonah Park, Jongwook Han, Eun-Ju Lee, Yohan Jo

人間の心理測定質問票が、日常的なユーザーインタラクションにおけるLLMの行動を特徴づけ予測するための信頼できるツールとして機能するかどうかを検討する。8つのオープンソースLLMを分析し、2つの異なる手法（確立された質問票（PVQ-40/21およびBFI-44/10）におけるリッカート式自己報告、および日常的なユーザークエリに対する価値観を含む応答の生成確率）から導出された価値観と性格プロファイルを比較する。2つのプロファイルは大きく異なる。構成概念内の項目一貫性（しばしばLLMの安定した特性の証拠として引用される）は、生成確率では消失する。この乖離は、確立された質問票の項目に含まれる明示的な語彙的手がかりによって、モデルが対象となる構成概念を認識し、整合性のある社会的に望ましい方法で応答できる一方、現実的なユーザークエリにはそのような手がかりがないことに起因すると考えられる。さらに、人口統計学的ペルソナプロンプトは、実際の人間のパターンと一致する形でモデルの人間向け質問票への応答を変化させるが、現実的なユーザークエリに対する応答の生成確率にはそのような変化は見られず、現実世界のユーザーインタラクションにおいて対象人口統計の行動をシミュレートする能力が限定的であることを示している。全体として、本研究は人間の心理測定質問票がLLMの行動予測には不十分なツールであることを示し、より正確な尺度として生成ベースのプロファイリングを提案する。

エコーメモリー：行動世界モデルにおける記憶の対照研究
Echo-Memory: A Controlled Study of Memory in Action World Models

Jun 8

ByWayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

我々は、「Echo-Memory」を提示する。これは、アクション条件付きワールドモデルにおける記憶メカニズムの制御された研究である。これらのモデルは、最初のフレーム、テキストプロンプト、カメラアクションのシーケンスからマルチセグメント動画を生成するが、その主要な失敗点は、局所的な画像合成よりもむしろ記憶にあることが多い。すなわち、カメラが移動して戻ってきた後に、シーンや顕著な物体が静かに変化することがある。既存の記憶設計は比較が困難である。なぜなら、性能向上がバックボーン、学習、検索、評価の違いと複雑に絡み合っているからである。Echo-Memoryは、アクションから動画へのインターフェースを固定し、生成器が履歴を保存・読み出す方法のみを変化させる。共有の動画拡散バックボーン、最適化器、カメラアクション表現、サンプラー、評価パイプラインの下で、未加工コンテキスト、圧縮ベースの記憶、異なる読み出し経路を持つ空間要約、状態空間再帰を比較する。このマッチング行列は、容量、圧縮、読み出し、再帰という、他では混同されがちな四つの軸を分離する。また、三つの分岐からなるプロトコル（再現品質、ドメイン内ループ再訪問、オープンドメイン復帰プローブ）を通じて記憶を評価する。これらの分岐はしばしば一致せず、再現忠実度が世界を記憶するための十分な代理指標ではないことを示している。そこから三つの知見が得られる。未加工コンテキストは強力な容量ベースラインであり、再現指標を改善するよりもはるかに大きくオープンドメイン復帰を向上させる。コンパクトさは容量の無料の代替品ではない。過激な圧縮やハイブリッド圧縮記憶は、復帰に必要な顕著な証拠を失ってしまう。最後に、ブロック単位の状態空間再帰は、我々の行列において最も強力なオープンドメイン復帰メカニズムであり、暗黙的記憶の構造が、それを使用するという決定と同じくらい重要であることを示している。これらの結果は、孤立した再現指標を超えてアクションワールドモデルにおける記憶を研究するためのコンパクトなプロトコルを提供する。

大規模エンドツーエンドコンテキスト圧縮
End-to-End Context Compression at Scale

Jun 8

ByAng Li, Sean McLeish, Haozhe Chen, Nimit Kalra, Zaiqian Chen, Artem Gazizov, Venkata Anoop Suhas Kumar Morisetty, Bhavya Kailkhura, Harshitha Menon, Zhuang Liu, Brian R. Bartoldson, Tom Goldstein, Sanae Lotfi, Micah Goldblum, Pavel Izmailov

長文コンテキスト言語モデルの推論は、コンテキスト長に応じてKVキャッシュが増大するため、メモリがボトルネックとなる。近年提案されているKVキャッシュ圧縮技術には限界がある。モデルの品質を大幅に低下させるか、長いプロンプトを圧縮するのに多大な時間と計算リソースを要する。さらに、多くの手法では入力が対象モデルのコンテキストウィンドウに収まる必要があり、現代のプロダクション推論エンジンとの互換性が一般的にない。エンコーダ・デコーダ圧縮器は、長いトークン系列を、デコーダで消費されるより短い潜在埋め込み系列に写像するもので、原理的には魅力的な代替手段である。しかし、既存のアプローチは精度と効率のトレードオフにおいてKVキャッシュ圧縮に勝るものではない。本研究では、エンコーダ・デコーダ圧縮を再検討し、このギャップを埋める。まずアーキテクチャ探索を行い、多くのバリアントをスクラッチから事前学習して、エンコーダ・デコーダ圧縮器を最適に設計・訓練する方法を決定する。その知見に基づき、圧縮比1:4、1:8、1:16において、それぞれ350Bトークン以上で0.6Bエンコーダ、4Bデコーダのモデル群を継続事前学習する。潜在コンテキスト言語モデル（LCLM）を導入する。これは、汎用タスク性能、圧縮速度、ピークメモリ使用量におけるパレートフロンティアを改善する圧縮器群である。LCLMが長期エージェントの効率的なバックボーンとして機能し、エージェントが圧縮された長いコンテキストをざっと読み、必要に応じて関連するセグメントを適応的に拡張できることを実証する。

OmniGameArena: 改善ダイナミクスを備えたVLMゲームエージェントのための統合UE5ベンチマーク
OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

Jun 8

ByMingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi

視覚言語モデル（VLM）エージェントは、インタラクティブなゲーム環境にますます多く導入されている。しかし、VLMエージェント向けのゲームベンチマークでは、通常、（エージェント、ゲーム）ペアごとに単一の初回試行スコアのみが報告され、単一エージェントのソロプレイに焦点が当てられており、異種エージェントクラス（商用VLM、オープンウェイトVLM、特殊ゲームポリシー）を同一基準で評価するための統一プロトコルが欠如している。我々は、これらのギャップに対処するため、統一アクションインターフェースを備えた新たに構築した12のUnreal Engine 5ゲーム（ソロ7、PvP 3、Coop 2）からなるリアルタイムベンチマーク「OmniGameArena」と、エージェントの内省的ハーネスである「Improvement Dynamics Curve（IDC）」を提案する。IDCでは、ツールを使用するリフレクターLLMが、制限付きスキルプロンプトを複数ラウンドにわたって自律的に洗練する。コールドスタートのリーダーボードスコアに加えて、IDCは（エージェント、ゲーム）ペアごとに2つの追加観測量を明らかにする。すなわち、内省ラウンド全体でのスコアの推移と、学習されたスキルが未見のタスクバリアントでどのように振る舞うかである。我々は、12のVLMエージェントについてコールドスタートリーダーボードにおけるこれらの観測量を報告し、IDC下でのトップ4エージェントについても報告する。

角度-ノルム分解による活性化ステアリングの幾何学的解釈
A Geometric Account of Activation Steering through Angle-Norm Decomposition

Jun 4

ByGeorgii Aparin, Tatiana Gaintseva

線形アクティベーション・ステアリングは、言語モデルの振る舞いを制御するためのシンプルで経験的に効果的な方法として広く用いられるようになっている。より最近では、球面ステアリングパラダイムが、加法的介入の限界に対処するために提案されており、その背景には、隠れ状態のノルムが概念に関連する情報を持たないという仮定がしばしば存在する。本研究では、角度成分と半径成分の役割を切り離すように設計された制御された実証研究を通じて、この仮定を再検討する。ステアリング手法の違いは、主に、2つの幾何学的効果、すなわちトークンの角度方向と概念方向のアライメントの変化とその隠れ状態のノルムの変化をどのように組み合わせるかにあることを示す。7つの言語モデルにわたって、概念は主に角度構造で表現されていることが分かり、球面手法の動機づけを裏付けるが、ノルムはステアリングの安定性と下流効果にとって依然として重要である。我々の結果は、類似した概念レベルの効果を持つ介入がなぜ異なる振る舞いをするのかを説明し、アクティベーション・ステアリングは、これら2つの効果を絡み合わせる単一の加法的係数ではなく、介入の解釈可能な角度成分と半径成分によってパラメータ化されるべきであることを示唆する。

ベイジアンエージェント: LLMエージェント活用のための事後分布誘導スキル進化
Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

Jun 6

ByXiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

LLMエージェントは、プロンプト、ツール、メモリ、SOP、スキル、ハーネスフィードバックといった外部推論条件への依存度を高めている。これらのアセットは、モデルの重みを変更せずにタスク実行を改善できるが、多くの場合、ヒューリスティックな振り返りや、観察された成功・失敗をあたかも件数だけが信頼できる信念であるかのように再利用することで修正される。本稿では、Bayesian-Agentを提案する。これは、再利用可能なスキルやSOPを、凍結モデルが特定のプロンプト、コンテキスト、ハーネス環境下で成功するかどうかに関する仮説として扱う、ネイティブかつクロスハーネスのフレームワークである。Bayesian-Agentは、検証済みの軌跡証拠を記録し、各スキルに対して特徴量で条件付けられたカテゴリカル事後分布を維持し、その事後状態をパッチ、分割、圧縮、破棄、探索といった監視可能なアクションにマッピングする。モデル向けのプロンプトには実行可能なガードレールと障害モードパッチが付与され、事後分布の要約は監査可能な状態で保持される。DeepSeek-V4-Flashを用いた場合、段階的な修復により、SOP-Benchでは80%から95%、Lifelong AgentBenchでは90%から100%、RealFin-Benchでは45%から65%に性能が向上した。さらに、Bayesian-Agentのネイティブバックエンドと、オプションのGenericAgent、mini-swe-agent、Claude Codeの各バックエンドについて評価を行った。結果には、正例、負例、飽和状態、ケーススタディの設定が含まれており、エージェントのスキル進化は、調整されていないプロンプトの蓄積ではなく、事後分布に導かれたハーネス最適化として捉えるのが最適であることを示唆している。ソースコードは https://github.com/DataArcTech/Bayesian-Agent で公開されている。

SwiftVR: リアルタイム・ワンステップ生成型ビデオ修復
SwiftVR: Real-Time One-Step Generative Video Restoration

Jun 8

ByJiaqi Yan, Xiangyu Chen, Xinlin Zhong, Haibin Huang, Chi Zhang, Jie Liu, Jiantao Zhou, Xuelong Li

ライブストリーム向けのリアルタイム動画復元（VR）では、厳格なフレーム単位のレイテンシ制約のもとで高解像度出力が求められる。既存のワンステップ拡散ベースVRモデルは、高解像度における二次的な空間的アテンションと、大規模動画オートエンコーダによるレイテンシ・メモリオーバーヘッドという二つの主要なボトルネックにより、コンシューマー向けGPUへのデプロイが依然として困難である。本稿では、因果的チャンク単位のプロトコル下で両ボトルネックを低減するストリーミング型ワンステップ生成VRフレームワークSwiftVRを提案する。アテンションに関しては、マスク不要のシフトドウィンドウ自己アテンションが決定論的インデキシングにより各空間ウィンドウを密テンソルに集約し、マスク、巡回シフト、パディング、ハードウェア固有のスパースカーネルを用いずに全アテンション呼び出しを密スケールドット積アテンションパス上に維持する。SwiftVRは標準的な密SDPA呼び出しのみを使用するため、学習済みモデルは再学習やカスタムカーネルなしでコンシューマーGPUに移植できる。オートエンコーディングについては、軽量な復元認識オートエンコーダにより復元品質を維持しつつ高速なチャンク単位の復号を実現する。単一H100上で、SwiftVRは2560×1440にて約31FPS、3840×2160にて約14FPSを達成し、比較対象の拡散ベースVRベースラインは全て4Kでメモリ制限を超過する。コンシューマー向けRTX 5090では、SwiftVRは1920×1080にて26FPSに達する。我々の知る限り、SwiftVRはコンシューマー向けGPU上でリアルタイム1080pストリーミングを実現した初の生成VRモデルであり、低い推論コストで強力なノーリファレンス知覚品質を達成する。プロジェクトはhttps://h-oliday.github.io/SwiftVRで公開されている。

AHA-WAM：観測誘導コンテキストルーティングを用いた非同期地平線適応型世界行動モデリング
AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

Jun 8

ByJisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu

ワールド・アクションモデルはロボット操作における有望なパラダイムとして登場し、視覚シーンのダイナミクスと行動を同時にモデル化することで、ポリシー学習に物理的な事前知識を注入する。しかし、既存のワールド・アクションモデルは、世界予測と行動実行を同じ時間分解能で結合しており、その結果、世界ブランチが冗長で情報量の少ない近未来のフレーム変動をモデル化することを強いられている。我々は、世界予測と行動実行を厳密に同じ時間リズムに束縛することは、身体化制御におけるビデオブランチの可能性を十分に活用していない可能性があると考える。そこで、我々はAHA-WAM（Asynchronous Horizon-Adaptive World-Action Model）を提案する。これは、デュアルDiffusion Transformer（DiT）アーキテクチャに基づいて構築され、この時間的非対称性を中心にワールド・アクション・モデリングを再編成する。AHA-WAMは、ビデオDiTを低頻度の世界プランナーとして実装し、過去の観測にわたってローリングキーバリューメモリを維持するとともに、長期にわたるシーンの進化を符号化する再利用可能なレイヤーごとの潜在コンテキストを公開する。一方、高頻度のアクションDiTは、レイヤーごとのジョイントアテンションを通じてこのコンテキストをクエリすることにより、短いアクションチャンクを閉ループで実行する。非同期実行をサポートするために、我々は「ホライズン・アダプティブ・オフセット訓練」と「観測誘導型ビデオコンテキストルーティング（OVCR）」を導入する。これらにより、アクション専門家は、ビデオDiTを再実行することなく、長期の世界コンテキストを活用しながら、リアルタイムの実行状態に応答し続けることができる。RoboTwinおよび実世界の操作タスクにおける実験では、AHA-WAMがロボットデータの事前学習なしで最先端の性能を達成し、RoboTwinで平均成功率92.80%、4つの実世界タスクで78.3%の成功率を達成し、さらにFast-WAMと比較して4.59倍の高速化により24.17 Hzの閉ループ制御を実現したことを示している。

隠れ表現ステアリングとスパースオートエンコーダを用いたWhisper幻覚検出と軽減
Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

Jun 5

ByGeorgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova

広く採用されているASRモデルであるWhisperは、入力と全く無関係な非発話オーディオに対して一貫性のある書き起こしを生成する幻覚（hallucination）を引き起こすことが知られている。本稿では、Whisperの内部表現を通じて幻覚を検出・軽減できるかどうかを調査する。音声エンコーダの活性化を抽出し、Whisperの生の活性化とスパースオートエンコーダ（SAE）潜在変数の2つの表現空間を評価する。両空間とも線形分離可能な幻覚関連情報を符号化しており、識別力はスパースな特徴サブセットに集中し、エンコーダの深い層ほど高まることを示す。次に、活性化空間ステアリングとSAE潜在空間ステアリングの2つのステアリング戦略を提案する。SAEベースのステアリングにより、非発話オーディオのテストセット全体において、Whisper smallでは幻覚率が72.63%から14.11%に、Whisper large-v3では86.88%から27.33%に低下し、音声データに対するWERの低下はわずかで、ファインチューニングベースの手法に迫る性能を示す。

DEI: 品質多様性探索のための進化的推論における多様性
DEI: Diversity in Evolutionary Inference for Quality-Diversity Search

May 26

ByJohn Donaghy, Shikhar Rastogi

我々はDEI（Diversity in Evolutionary Inference：進化推論における多様性）を提案する。これは、異種大規模言語モデル（LLM）を突然変異演算子として割り当て、非ブロッキング集合操作で通信するピアノード間で分散型Quality-Diversity（QD）探索を実現するフレームワークである。単一モデルの帰納バイアスを全ワーカーに複製する同種並列探索とは異なり、DEIは各LLMが持つ独自の創造的先行知識を、行動の新規性を補完する源泉として扱う。Digital Red Queenフレームワークを拡張したDEIでは、各ラウンド終了時にノード間で局所的最適解を共有し、次ラウンドの個体群の種とする。これにより、モデル間の敵対的压力が生まれ、単一モデル内の自己対戦を超えたロバスト性が向上する。シミュレートされた機械上でRedcode戦士プログラムが競い合う競技プログラミングベンチマークであるCore Warドメインにおいて評価を行った。4ノードの異種アンサンブル（GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5）は、同一の総LLM呼び出し予算の下で、単一ノードベースラインと比較して、マージアーカイブQDスコアで124%向上（45.90対20.46）、カバレッジ（セル占有率）で28%向上（80.6%対63.0%）を達成した。また、異種アンサンブルは、同等の予算の同種アンサンブルに対しても、QDスコア、カバレッジ、および4つの全モデルファミリーにわたる未評価解の汎化性において優れた結果を示した。これらの結果は、分散型LLMベースQD探索における性能向上の主因が単なる並列性ではなく、モデルの多様性にあることを示す初の実証的証拠である。

Skill-RM: エージェントスキルによる異種評価基準の統合
Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

Jun 2

ByTao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang, Yihao Liu, Jingwei Ni, Jiaqi Guo, Mengyu Zhou, Kai Tang, Junling Liu, Qinliang Su, Xiaoxi Jiang, Guanjun Jiang

報酬モデル（RM）は、LLMのポストトレーニング、特に強化学習ファインチューニング（RFT）や強化学習（RL）パイプラインにおいて、重要なフィードバック信号を提供する。しかし、現在の報酬評価はルールベース検証器、正解参照、手続きチェックリスト、複雑な評価基準といった異質な基準に依存しており、あらゆる種類の証拠を統合する統一メカニズムは未だ検討されていない。この課題に対し、我々はスキル報酬モデル（Skill-RM）を提案する。これは報酬モデリングを再利用可能な報酬評価スキルの実行として再定義する統一フレームワークである。報酬計算を構造化されたエージェント的タスクとして扱うことで、Skill-RMは異種リソースを統制する一貫したインターフェースを提供し、各入力の具体的な要件に応じて証拠を動的に選択・集約する。このアプローチにより、報酬モデルは静的な評価を超え、多様なタスクにわたって一貫性と透明性を確保する。報酬ベンチマークおよびベストオブN選択や強化学習を含む下流アプリケーションにおける広範な実験により、Skill-RMが従来の審査ベースラインを一貫して上回ることが実証された。我々の知見は、Skill-RMが報酬モデリングの統一的なソリューションを提供するだけでなく、証拠の戦略的かつ動的な統合を通じて優れた性能を達成することを示唆している。コードはhttps://github.com/Qwen-Applications/Skill-RMで公開されている。

OmniCap-IF: オムニビデオキャプショニングにおける指示追従能力のベンチマークと向上
OmniCap-IF: Benchmarking and Improving Instruction Following Abilities for Omni-Video Captioning

Jun 7

ByJiahao Wang, An Ping, Yanghai Wang, Yuanxing Zhang, Shihao Li, Hanyan Bian, Yichi Ren, Yize Zhang, Han Wang, Haowen Chen, Junze Li, Jiaqi Wang, Yiyang Hu, Zhuze Xu, Zijie Zhang, Jiaheng Liu

オムニモーダル大規模言語モデル（OLLMs）は、音声と視覚ストリームを同時に処理する優れた能力を示しているが、複雑で多面的なユーザ指示に厳密に従う能力はほとんど未解明のままである。既存のベンチマークは主に全体的な動画理解やテキストのみの指示追従に焦点を当てており、モダリティとユーザ制約の間の複雑な相互作用を捉えきれていない。このギャップを埋めるため、我々はオムニモーダルキャプショニングにおける指示追従能力を評価するために特別に設計された初の包括的ベンチマークであるOmniCap-IFを導入する。 OmniCap-IFは、形式正しさと内容正しさの2次元でキャプションを評価する体系的なフレームワークを採用している。本ベンチマークは、純粋視覚、純粋音声、音声-視覚の各モダリティにわたる50種類の異なる制約タイプを網羅するとともに、時間的グラウンディングを統合して時空間精度を評価する。顕著なモデルに対する1,920の高品質サンプルを用いた広範な評価により、有意な性能格差が明らかになった。さらに、我々の分析は「形式-内容トレードオフ」という重要な現象を明らかにし、形式化の複雑さを増すことがモデルのオムニモーダル推論能力を直接的に低下させることを示している。最後に、分野の進展のために、我々は54Kの指示チューニングデータセットであるOmniCap-IF-54Kを厳選し、OmniCaptioner-IFを提案する。これは、複雑な指示への追従と一般的なオムニモーダルキャプショニング性能の両方において顕著な改善を達成する。

なぜムオンがアダムを上回るのか：曲率の観点から
Why Muon Outperforms Adam: A Curvature Perspective

Jun 3

ByShuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang

Muonは、Adamと比較して大規模言語モデルの学習効率を約2倍向上させることが知られているが、この優位性の局所的な幾何学的源泉は依然として不明である。本研究では、曲率の観点からMuonがAdamよりも優れている理由の解明に向けた最初の一歩を踏み出す。まず、学習ランドスケープに2次テイラー近似を適用し、検証損失が同等の条件において、MuonがAdamよりも大きな1ステップあたりの損失減少を達成することを示す。両最適化器は1次利得が同等である一方、Muonは一貫して小さな2次曲率ペナルティを生じる。次に、この曲率ペナルティを更新ノルムの2乗と正規化方向鋭敏性（NDS）に分解する。MuonとAdamは更新ノルムが同等であるため、Muonのより小さな曲率ペナルティは更新スケールではなく、より低いNDSによってもたらされることがわかる。第三に、学習データとモデル構造がMuonのNDS優位性をどのように形成するかを調べる。制御された不均衡を伴うZipf-確率的文脈自由文法（PCFG）データを用いて、データの不均衡がMuonのAdamに対するNDS優位性を増幅することを示す。さらに、層内/層間分解により、学習の中盤から後期にかけて、Muonの低いNDSは主により小さな層内曲率によって維持されていることが明らかになる。実験的証拠に加えて、不均一な曲率と高曲率モードへの勾配アライメントを持つ様式化された二次問題を解析する。Muonは曲率グループ間で更新エネルギーをバランスさせることにより、勾配降下法よりも小さな平均NDSを達成することを証明する。曲率の不均一性が十分に強い場合、これは同じステップ数後の局所二次損失の低下にもつながる。

SlimSearcher: 適応的報酬ゲーティングによるトレーニング効率を意識したウェブエージェント
SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

Jun 5

ByZequn Xie, Junjie Wang, Dan Yang, Jie Feng, Yue Shen, Jian Wang, Jinjie Gu

深層研究エージェントは複雑な情報探索タスクにおいて顕著な能力を示しているが、その能力には莫大な計算コストが伴う。精度重視の学習パラダイムに駆動された現在のモデルは、盲目的なツール依存とパフォーマティブな推論（タスク解決に不必要な長く冗長な軌跡を生成すること）を特徴とする力任せの戦略を採用しており、非効率なツール呼び出しや過剰なトークン消費を引き起こしている。この効率の罠を克服するため、我々はSlimSearcherを提案する。これは、教師ありファインチューニング（SFT）と強化学習（RL）の両方において、精度と計算コストの間のパレートフロンティアを押し広げる原理的なフレームワークである。SFT段階では、SlimSearcherはパレート効率的フィルタリングを用いて、成功かつ経済的な軌跡を蒸留し、モデルを本質的に効率を意識した探索行動へと導く。RL段階では、サンプリングされたコホート内での相対的なツール効率とトークン効率を評価する動的報酬形成機構であるAdaptive Reward Gating（適応的報酬ゲーティング）を導入する。これらの適応的な効率指標を厳格な正解ゲートとカスケードすることで、本手法は絶対的ペナルティに伴う簡潔さバイアスを効果的に回避し、報酬ハッキングを軽減する。GAIA、BrowseComp、XBenchDeepSearchを含む長期ホライズンベンチマークでの広範な実験により、SlimSearcherは精度を維持または向上させつつ、平均ツール呼び出し回数を17％から58％削減することが示された。

全二重音声モデルにおけるLLM能力の解放
Liberating LLM Capabilities in Full-Duplex Speech Models

May 4

ByLuoyuan Zhang, Bokai Xu, Junbo Cui, Weiyue Sun, Yingjing Xu, Hanyu Liu, Yuan Yao

音声ベースの大規模言語モデルは通常、音声応答に制約されており、ユーザー向けの出力は音声化可能なものに限定され、コード生成、構造化分析、リアルタイム対話における多段階推論など、持続的かつ構造化され検査可能な中間出力を必要とするタスクにおいて、テキスト本来の能力が抑制される。既存研究では音声推論や全二重ターンテイキングの改善が進められているが、テキストは依然として隠れた中間状態や従属的なモダリティとして扱われ、第一級の出力チャネルとはなっていない。本稿では、Listen-Write-Speak（LWS）を提案する。これはテキスト優先の三チャネルパラダイムであり、単一の自己回帰型LLMがユーザーの音声を継続的に聞き取り、可視の自由形式テキストを主要出力として書き出し、同時に共有の因果的注意コンテキストの下でリアルタイムの音声応答を発話する。この動作はToken Schema（トークンスキーマ）によって完全に実装されており、アーキテクチャの変更を必要とせず、二段階のデータパイプラインを通じて学習される。このパイプラインでは、明らかになった入力タイムラインに整合した秒単位の認知アノテーションを合成する。実験的に、LWSはFull-Duplex-Benchで強力な全二重対話性能を示し、VoiceBench AlpacaEvalで4.72、書き発話一貫性で92.6%を達成し、URO-Benchにおいて内部アブレーションを一貫して上回った。これらの結果は、可視の書き出しがリアルタイム応答性を犠牲にすることなく、音声対話における第一級の出力チャネルとして機能し得ることを示している。コードとデータセットはプロジェクトページ（https://royalzhang.com/project/lws-page/）で公開されている。

推論アリーナ：検証可能な報酬が及ばない場合のトレーストーナメント
Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Jun 8

ByHan Zhou, Adam X. Yang, Laurence Aitchison, Anna Korhonen, Albert Q. Jiang

検証可能な報酬による強化学習（RLVR）は、大規模言語モデルの推論能力を結果ベースの監督を通じて向上させる主要なパラダイムとなっている。しかし、検証可能な報酬はグループレベルで無情報になりがちである。すなわち、あるプロンプトに対してサンプリングされたすべてのトレースが同一の報酬を受け取る場合、グループ相対アドバンテージ推定では勾配信号が得られず、各トレースの推論品質が大きく異なる可能性があるにもかかわらずである。本稿では、このような非多様な報酬グループを破棄する代わりに審査システムに誘導する適応型学習フレームワーク「Reasoning Arena」を提案する。最終回答の検証に加え、Reasoning Arenaはトレーストーナメントを構築し、トレース同士を一対一で比較することでグループ内のより詳細な選好を明らかにし、推論品質を豊かな相対報酬信号に変換する。報酬推定を効率的にするため、すべてのペアを網羅的に比較するのではなく、新たなトレースを動的に更新される小さな事前生成トレース集合（アンカー）と比較することで、相対順位を効率的に確立する。そして、不完全な比較グラフに対してブラッドリー・テリー模型を適用することで、二次のペアワイズ比較を行わずに拡張可能なRL統合を実現する。実験結果は、Reasoning Arenaが競技数学およびコーディングベンチマークにおいて平均7.6%の性能向上をRLVRベースラインに対して一貫してもたらすことを示している。従来は無駄になっていたゼロアドバンテージサンプルを有用な勾配更新に変換することで、本手法は学習速度を27%から41%加速し、生成計算をほぼ50%削減するとともに、全体的な推論性能を大幅に改善する。

Light-WAM: 状態融合アクションデコードによる効率的な世界行動モデル
Light-WAM: Efficient World Action Models with State-Fusion Action Decoding

Jun 6

ByZiang Li, Dongzhou Cheng, Yibin Wang, Shiyue Wang, Xiaoyang Xu, Lingxuan Weng, Juan Wang, Jiaqi Wang

ワールドアクションモデル（WAM）は、将来予測を追加の学習目的として組み込むことでロボットのポリシー学習を拡張し、ポリシーがその表現においてタスクに関連する時間的構造をエンコードすることを促進する。現在のWAMは多くの場合、大規模な生成アーキテクチャに依存しており、高い学習コストと推論レイテンシが発生するため、効率的な閉ループポリシーとして展開することが困難である。我々は、効率的なロボット操作のための軽量ワールドアクションモデルであるLight-WAMを提案する。具体的には、コンパクトなビデオバックボーンで構築され、ダウンサンプリングされた潜在空間で将来ビデオの教師信号を適用することで、ビデオ共同学習のコストを削減しつつ、表現学習におけるその利点を維持する。行動予測のために、Light-WAMはStateFusionActionExpertを導入する。これは複数のバックボーン層から適応された状態を読み取り、学習されたクエリプーリングを通じてそれらを融合し、単一のフォワードパスで行動チャンクを直接予測する。この設計は、ビデオバックボーン表現とロボット行動の間の効率的なインターフェースを提供し、重い生成的行動エキスパートを不要にする。実験により、Light-WAMはLIBEROで強力な性能を維持し、RoboTwin 2.0で実用的なマルチタスク性能を達成しつつ、学習可能パラメータはわずか0.44Bであることが示された。また、推論レイテンシ72.03ms、ピークGPUメモリ4.1GiBを達成し、学習スループットも向上している。

回答の存在がRAGリライトの効果を促進する
Answer Presence Drives RAG Rewriting Gains

Jun 4

ByYuejie Li, Yueying Hua, Ke Yang, Li Zhang, Yueping He, Yueping He, Ruiqi Li, Bolin Chen, Tao Wang, Bowen Li, Chengjun Mao

検索拡張型QAパイプラインでは、取得したパッセージを、小型のリーダーに入力する前にLLMリライターに通すことが多く、マルチホップベンチマークにおいてF1スコアを数十ポイント向上させる。この改善は、通常、証拠品質の向上に起因するとされている。本研究では、その向上が、リライターによる証拠の精選そのものではなく、書き換えられたコンテキストに正解文字列が出現することに因果的に起因するのかどうかを、制御された介入監査によって検証する。書き換えられた各コンテキストに対して、コンパイラの出力に対して4種類の制御された編集（正解スパンの削除、長さを一致させたランダムな非正解スパンへの置換［プラセボ］、正解が存在しなかった書き換えへの正解の注入［接頭辞または文の中間境界の位置］）のいずれかを施した後、リーダーを再実行する。 3つのリーダーファミリー（Qwen2.5-7B、Qwen3.5-35B、GLM-4.7）、2つのデータセット（HotpotQA、2WikiMultihopQA）、および3つのコンパイラ構成（MAのみ、MBのみ、MA+検証）にわたる12件の(セル, ベースライン)介入実行において、コンパイル内の回答有無で層別したペアデータ上で正解を削除すると、長さを一致させたプラセボと比較してリーダーのF1が28～64ポイント低下する。また、正解が存在しなかった書き換えの先頭に正解を追加すると、12件中10件の(セル, ベースライン)組み合わせでF1が+0.7～+9.7ポイント上昇する。付随する5センチネル監査では、従来の単一[MASK]プローブ自体がセンチネルに対して脆弱であることが示される。すなわち、2Wikiにおいてそれは+4.12 F1の「非リーク残差」を報告するが、別の4種類のセンチネルでは-3.33～-7.81 F1に反転し、そのうち3種類のセンチネルでは等価性テストに不合格となる（4種類中1種類のみ合格）。我々は新しいリライターや緩和策を提案するのではなく、介入ランナーとセンチネルパネルを公開する。これにより、他のリライターによる利得の主張も同一基準で検証可能となる。

テキスト・画像生成モデルがテキストエンコーダに求めるものは、想像以上に少ない
Text-to-Image Models Need Less from Text Encoders Than You Think

Jun 2

ByNurit Spingarn, Noa Cohen, Tamar Rott Shaham, Tomer Michaeli

テキストから画像へのモデルは、人間の意図を伝える主要なインターフェースとしてテキストプロンプトに依存している。プロンプトはテキストエンコーダによって埋め込みに符号化され、画像生成プロセスを条件付ける。個々のトークンの意味を超えて、テキスト埋め込みはプロンプト全体の文脈情報（構成性や属性結合など）を符号化する。しかし、画像モデルが実際にこの豊かな情報を活用しているかどうかは十分に調査されていない。本稿では、「画像生成にとってテキスト表現のどの側面が本質的か？」という問いに取り組む。我々は、テキストから画像への拡散トランスフォーマーベースモデルが、一般にテキスト表現の比較的単純な二つの側面のみに依存していることを示す：(i) 複数のトークンにまたがる単語について、隣接するトークンを単語表現に統合すること、(ii) テキストエンコーダの位置埋め込みによって刻印される語順である。これを示すために、個々の単語の意味と順序のみを符号化し、プロンプト全体に関する文脈情報を欠いた新しいテキスト埋め込みを構築した。この位置タグ付き単語のバッグ表現が画像生成を成功裡に導くのに十分であり、視覚品質とテキスト忠実度において完全なテキスト埋め込みによる生成と同等の結果を達成することを発見した。これは、一般的な認識に反して、テキストから画像へのモデルは多くの場合、個々の単語の意味と語順を超えたテキスト埋め込みに符号化された豊かな情報を使用しておらず、代わりに複雑な言語構造の解読は画像モデル自身によって行われていることを示している。プロジェクトウェブページ: https://nsping13.github.io/contextless-TTI/

DuMate-DeepResearch: 再帰的探索とルーブリック基盤の推論による監査可能なマルチエージェントシステム
DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

Jun 5

ByLingyong Yan, Can Xu, Yukun Zhao, Wenxuan Li, Qingyang Chen, Jiulong Wu, Wenli Song, Xiangnan Li, Weixian Shi, Yiqun Chen, Xuchen Ma, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Jianmin Wu, Dawei Yin

Deep Research（DR）は、複雑で自由度の高い研究タスクに取り組むための新たなエージェント的パラダイムとして登場し、問題を反復的に枠組みし、エビデンスを収集し、情報源を検証し、長文レポートを合成するシステムを必要としています。しかし実際には、現在のDRシステムは4つの相互に関連する制約、すなわち範囲が不明確なままの長期的計画、単一エージェントでのタスク分解とスケジューリングのボトルネック、長文合成におけるハルシネーションリスク、そしてプロセス監査可能性の限界に縛られています。本テクニカルレポートでは、Qianfan Agent Foundry上に構築されたマルチエージェントDRフレームワーク、DuMate-DeepResearchを提案します。本フレームワークは、タスク理解、計画、スケジューリングを担当するAgent Coreを、検索、エビデンス収集、レポート生成のための拡張可能なツールエコシステムから分離し、すべての中間判断とツール呼び出しを明示的に追跡可能にします。この基盤の上で、DuMate-DeepResearchはさらに3つのメカニズムを導入します。(i) グラフベースの動的計画戦略により、研究ロードマップを粗から密へと拡張し、振り返り、再計画、バックトラッキング、並列ブランチングを通じて継続的に修正します。(ii) 再帰的二段階実行設計により、複雑な検索サブタスクをそれぞれ独自の計画ループを持つ内部のSearch Agentに委譲し、ノイズの多い検索を分離して長期実行を安定化します。(iii) ルーブリックベースのテスト時最適化メカニズムにより、タスク固有の品質基準を動的に生成し、それらをエビデンスに基づく合成と適応的停止のための動的推論の足場として活用します。2つのディープリサーチベンチマークにおいて、DuMate-DeepResearchは新たな最高水準の結果を達成しました。DeepResearch Benchでは総合スコア58.03%、DeepResearch Bench IIでは総合スコア61.95%を記録し、情報再現性と分析評価で首位となりました。

重み空間メタ学習によるロボットポリシー適応
Robotic Policy Adaptation via Weight-Space Meta-Learning

Jun 5

ByChristian Bianchi, Siamak Yousefi, Alessio Sampieri, Andrea Roberti, Luca Rigazio, Fabio Galasso, Luca Franco

ビジョン・ランゲージ・アクション（VLA）モデルは、ロボット操作の有望なパラダイムとして台頭しており、大規模な実演データセットと行動ラベルから学習した汎用ポリシーを実現している。しかし、これらのモデルを新しいタスクに適応させるには、依然としてタスク固有の実演データ、行動アノテーション、追加のファインチューニングが必要であり、展開コストが高く、スケールが難しい。本稿では、重み空間メタ学習フレームワークであるWIZARDを提案する。これは、凍結されたVLAポリシーに対してタスク固有のLoRAパラメータを生成することで、タスク固有のファインチューニングを回避する。言語指示と短い実演動画のみを与えられると、WIZARDはターゲットタスクの行動ラベルやテスト時の最適化を必要とせずに、単一の順伝搬で対応する適応重みを予測する。メタ学習中、WIZARDはタスクの証拠を直接エキスパートLoRA更新へとマッピングする方法を学習し、タスク間の関係を重み空間で捉える。 LIBEROを用いた実験では、WIZARDは未見のデータセット群で最大約2倍、未見のタスクで最大約14倍の性能向上を示した。Franka Emika Pandaロボットでは、WIZARDが実環境適応ベースラインに対して一貫した改善を示し、生成されたアダプタがシミュレーションを超えたタスクレベルの特化を提供することを示している。

軌跡精製蒸留
Trajectory-Refined Distillation

Jun 7

ByLi Jiang, Haoran Xu, Yichuan Ding, Amy Zhang

オン方針蒸留（OPD）は、大規模言語モデル（LLM）の事後学習における中心的なツールとなりつつあり、生徒自身のロールアウトに沿ってトークン単位の密な教師監督を提供する。本研究では、OPDに共通する構造的原因を特定し、これを「プレフィックス障害」と呼ぶ。プレフィックス障害の下では、トークン単位の密な教師監督がバイモーダルな教師混合と断片化された勾配を引き起こし、トークンレベルの損失打ち切りや再重み付けでは対処できない。この観察から、トークンレベルの損失介入を超え、軌跡レベルの出力修正へと進む動機を得た。そこで我々は、オン方針サポート内で教師の指導の下で生徒のロールアウトを修正する軌跡レベルの修正手法「軌跡精製蒸留（TRD）」を提案する。蒸留前に問題のあるプレフィックスを修正することで、TRDはプレフィックス障害をその発生源で軽減する。さらにTRDは、元のロールアウトがすでに正しい場合でも、教師の指導の下で代替の有効な導出に生徒を晒すことで、探索を改善する。TRDは、特権情報を条件とした生徒モデルを教師として使用するパラメータ共有の変種であるオン方針自己蒸留（OPSD）にも適用できる。複数スケールの多様なベンチマークとベースモデルにわたって、TRDは従来のベースラインを一貫して上回り、単回試行の精度を向上させるとともに推論範囲を拡大する。コードは https://github.com/louieworth/trd で入手可能である。

SDR: 放射線レポート生成のための集合距離報酬
SDR: Set-Distance Rewards for Radiology Report Generation

May 30

ByHalil Ibrahim Gulluk, Max Van Puyvelde, Wim Van Criekinge, Olivier Gevaert

検証可能な報酬を用いた強化学習は、視覚言語モデルにおける推論を急速に進歩させてきました。しかし、胸部X線検査レポート生成においては、標準的な報酬（すなわち、完全一致精度やステップレベルのプロセス）は互換性がありません。なぜなら、レポートは因果的な推論連鎖ではなく、順序のない直交する所見から構成されるからです。我々はこのギャップに対して集合ベースの視点で対処します：各レポートを文に分割し、凍結されたセンテンストランスフォーマーで埋め込み、順序のない埋め込み集合を生成します。生成された埋め込みと参照埋め込み間の集合間距離を、連続的で置換不変な報酬として使用することを提案します。 2つのデータセットと3つの視覚言語モデル（Qwen3-VL-2B/4B、Gemma3-4B）にわたって、GRPOによる集合間距離に基づく報酬を用いたポストトレーニングは、主要な全指標（BERTScore、RadGraph F1、CheXbert F1）において、教師ありファインチューニングや完全一致GRPOを一貫して上回りました（それぞれ平均相対改善率\%6.80、\%7.82、\%4.45）。同じ集合距離は、テスト時のベストオブN選択も可能にします：訓練レポートの埋め込みとの距離に基づいて候補をスコアリングすることで、我々の訓練済みモデルおよび3つのクローズドソースLLM（Mistral-Small、Gemini-2.5 Flash-Lite、GPT-4o-mini）において、ランダム選択を上回り、BERTScoreで平均相対改善率\%16.4を達成しました。ストリーミング信号として使用することで、より効率的なテスト時スケーリングを実現します：生成途中で低スコアの候補を枝刈りすることで、完全なベストオブN選択のFindings品質を維持しつつ、生成トークンを50\%以上削減します。これらの結果は、胸部X線検査レポート生成において、集合距離報酬がポストトレーニングとテスト時スケーリングの両方のための統一された信号であることを確立しています。私たちのコードは公開されています：https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}

ビジョントランスフォーマーにおけるパッチグリッド不安定性のための位相周辺化
Phase Marginalization for Patch-Grid Instability in Vision Transformers

Jun 6

ByOğuzhan Ercan

ビジョントランスフォーマーは固定されたパッチグリッド上で動作するため、高密度予測において位相依存の不安定性を引き起こす可能性があります。特に境界付近では、パッチ分割を変更すると、ピクセルが利用できるトークンエビデンスが変化します。本稿では、パッチグリッド位相をニュアンス変数として定式化し、構造化されたパッチグリッド位相を評価し、高密度出力を逆整列し、元の画像座標系で集約する事後マージナリゼーション手法である位相マージナリゼーションを提案します。中心的なバリアントであるK=4の一様位相マージナリゼーションは学習不要であり、測定されたセグメンテーション、深度、局所マッチング設定において、標準的なK=1ベースラインよりも改善を示します。制御されたCityscapes実験では、一様位相マージナリゼーションは、一般的なシフトベースの4回フォワードのテスト時拡張（TTA）に対して、控えめながら計算コストを一致させた優位性を示しました（最も強力なテスト済み汎用手法に対して平均IoUで+0.31）。さらにスケーリング研究では、K=4が実用的なコストと精度のトレードオフであることが示されています。K=8では実質的に変化がなく、K=16ではレイテンシが大幅に増加するにもかかわらず、精度の向上はわずかです。これらの結果は、パッチグリッド位相を測定可能なニュアンス変数として位置づけ、位相マージナリゼーションを高密度ViT予測のためのシンプルな診断および事後マージナリゼーションのベースラインとして位置づけます。

AsyncWebRL: ビジュアルWebエージェントのための効率的なマルチステップ強化学習
AsyncWebRL: Efficient Multi-Step RL for Visual Web Agents

Jun 4

ByHao Bai, Rui Yang, Chenlu Ye, Spencer Whitehead, Aviral Kumar, Tong Zhang

マルチステップ強化学習による視覚言語ウェブエージェントの訓練は計算集約的であり、効率性を損なう二つの主要な要因がある。すなわち、同期強化学習におけるGPUのアイドル状態と、必要以上のステップ数やトークン数を消費する軌跡である。本稿では、これらの問題に対処するAsyncWebRLを提案する。システム面では、非同期設計によりロールアウト、勾配更新、ポリシー更新をイテレーション間で重ね合わせ、さらにウェブエージェント特有の適応として永続ロールアウトプールと軽量スクリーンショット処理を組み合わせることで、従来最速のオープンソース同期パイプライン（WebGym）と比較して、エンドツーエンドの訓練スループットを最大2.9倍高速化する。アルゴリズム面では、マルチステップGRPOにおける軌跡ごとの正規化係数1/|τ_i|が、軌跡レベルおよびトークンレベルの非効率性の根本原因であることを特定する。失敗軌跡は成功軌跡よりも体系的に長いため、この係数が失敗トークンに対する負の勾配を過小評価し、その結果、方策は冗長なメモリスキーマを生成し続ける。1/|τ_i|を定数1/kに置き換えることでこの結合を断ち切り、全体の成功率を維持しながら軌跡を短縮する。これらの貢献により、WebGymの分布外テスト分割において、新たなオープンソースの最高水準を達成した（従来最高の42.9%から相対5.8%向上）。特に困難なサブセットでは大きな改善が見られ（Mediumで相対42%向上、Hardで相対48%向上）。

信頼関数：弱い教師を信頼するタイミングの学習によるニアロスレスな弱→強汎化
Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher

May 31

ByArda Uzunoglu, Alvin Zhang, Daniel Khashabi

弱から強への一般化（weak-to-strong generalization）は、信頼できるラベルが不足している状況において、弱い教師からの教師信号を用いて強力な学生モデルを改善する方法を研究するものである。我々はこれを主にデータ選択問題と捉え、その主要な課題は、どの弱ラベルが訓練信号として十分信頼できるかを特定することである。この問題に対処するため、我々は信頼関数（trust function）を導入する。これは各弱ラベルにスカラーの信頼スコアを割り当て、そのスコアを用いて弱い教師信号をフィルタリングするものである。世界知識、量的推論、戦略ゲームなど、いくつかの領域において、信頼フィルタリングにより、正解教師信号に匹敵する、場合によってはそれを上回る学生モデルが得られ、ほぼ損失のない弱から強への一般化を達成した。さらに、信頼関数は反復的な弱から強への連鎖を可能にし、学生モデルを訓練して次の教師として再利用することで利益を積み重ね、その利得を増幅する。信頼関数の優位性は、いくつかのメカニズムに帰することができる。

光学的推論：テキストを超えた表現力豊かな推論媒体としての画像の再考
Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

Jun 8

ByYutong Bian, Dongjie Cheng, Heming Xia, Yongqi Li, Wenjie Li

CoT（Chain-of-Thought）は大規模言語モデル（LLMs）の性能を向上させ、マルチモーダル大規模言語モデル（MLLMs）にも拡張されている。さらに最近の研究では、テキストベースのマルチモーダル推論から、中間段階でテキストによる根拠と視覚的証拠の両方を組み込むことができるインタリーブ型モーダル推論へと移行している。本研究では、より大胆かつ野心的なアイデアを提案する。それは、画像単独で言語タスクとマルチモーダルタスクの両方における推論媒体として機能できるのではないかというものである。この探求のため、画像を独立した推論媒体として扱う光学的推論（optical reasoning）を提案する。本概念を、コンパクトな根拠の描画に最適化された視覚的レイアウトを実現するタイポグラフィ型光学的推論と、テキストとグラフィック要素を構造化された視覚的根拠に構成するグラフィカル型光学的推論の2つのバリアントで具体化する。数学、科学、およびインタリーブ型モーダル推論のベンチマークにおいて、光学的推論は従来のテキスト推論と同等またはそれを上回る性能を示しつつ、言語タスクでは平均28.57%、マルチモーダルタスクでは平均16%の推論トークンを削減し、テキスト推論の1.96倍のトークン効率を達成した。これらの結果は、画像が推論のための統一的な視覚的キャンバスを提供しながら、効果的かつ効率的に根拠をエンコードできることを示している。

WorldCraft: インタラクティブビデオワールドモデルにおけるカメラナビゲーションから物体操作へ
WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

May 24

ByBohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo

近年のビデオベースのワールドモデルは、ピクセル空間環境においてカメラレベルでのインタラクションを可能にしている。ユーザーは視点をナビゲートしながら、モデルは一貫性のある視覚的継続を生成する。しかし、その行動空間は不完全である。ユーザーはカメラを動かすことはできるが、個々のオブジェクトに対して作用することはできない。現実世界のインタラクションは本質的にオブジェクト中心であるため、そのようなモデルは真に操作可能な環境というよりも、受動的なシーン観察者に近いままである。我々はWorldCraftを提案する。これはインタラクティブなビデオワールドモデルをカメラナビゲーションからオブジェクトレベルの軌跡行動へと拡張するフレームワークである。ユーザーのクリックとスケッチされた経路が与えられると、WorldCraftは選択されたオブジェクトが指定された軌跡に従いながら、カメラがシーンをナビゲートし続ける将来フレームを生成する。WorldCraftはこれを軌跡中心の制御パイプラインを通じて実現する。まず、正規化ワールド軌跡（NWT）は、ユーザーが描いた動きをカメラ不変のワールド座標系で表現し、現在のカメラ姿勢の下で動的に再投影することで、オブジェクトの動きをカメラ起因のスクリーン空間変位から分離する。次に、空間パスウェイLoRA（SP-LoRA）は、このワールド空間信号をモデルの空間制御パスウェイに注入し、事前学習済みのカメラコントローラを維持しながらオブジェクト操作機能を追加する。最後に、軌跡アンカー状態永続化（TASP）は、ワールド軌跡を永続的な空間状態として扱い、軌跡条件付き生成後に自己回帰的メモリをリフレッシュすることで、移動されたオブジェクトがカメラ視野外に出た後も更新された位置に再出現することを可能にする。実験により、WorldCraftは正確なオブジェクト制御を実現し、カメラのみの評価においてビデオベースワールドモデルのカメラ忠実度を維持し、長い自己回帰的ロールアウトやカメラ視野外への移動においてもオブジェクト状態を保持することを示す。

評価カード：AI評価報告のための解釈層
Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

Jun 8

ByAvijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman

AI評価結果は大規模に生成されるが、リーダーボード、モデルカード、ベンチマーク論文、企業ブログ間で一貫性のない報告が行われている。その代償は解釈上のものとなる。読者は、情報源間で結果を確実に比較したり、報告が何を省略しているかを特定したり、集約された主張をその根拠となる証拠に遡ったりすることができない。最近の取り組みは個別のコンポーネントに対処しているが、3つのギャップを残している。評価ライフサイクルの狭い部分しかカバーしておらず、単一の解釈可能な記録に統合されない。同じ証拠に対して異なるステークホルダーが持つ質問を区別しない静的な表現を指定している。また、紙上の提案にとどまり、大規模な採用に必要な抽出インフラストラクチャを欠いている。我々は、ベンチマークメタデータ、評価実行データ、モデルメタデータを統合記録に構成する運用レポート層、___ を提示する。我々は、(1) 52本の論文と10件のステークホルダーインタビューの構造化レビューからレポートスキーマを導出し、(2) 4つの解釈シグナル（再現性、文書完全性、来歴とリスク、スコア比較可能性）を実装し、研究および非研究者向けのオーディエンスに合わせて調整された読者モードで提示し、(3) 5,816モデル、635ベンチマーク、101,843件の結果にわたって___を適用し、現在の報告実践における系統的なギャップを明らかにする監視ツールを展開する。

まずSCOUTを送信せよ：プロンプトインジェクション防御における適応的検出器割り当てのための事前推論
Send a SCOUT First: Pre-hoc Reasoning for Adaptive Detector Allocation in Prompt-Injection Defense

May 29

ByShuhao Zhang, Jiarui Li, Qi Cao, Ruiyi Zhang, Pengtao Xie

プロンプトインジェクション検出器は異種混合であり、各検出器は異なる攻撃スライスに強く、常に信頼できるものは存在しない。しかし、既存のシステムは依然として検出を固定された単一検出器パイプラインとして扱い、すべてのリクエストを一つの検出器の盲点に委ねている。我々は防御を検出器割り当てとして再定義する。すなわち、異種混合プールが与えられたとき、リクエストごとにどの検出器を実行し、LLM判定器にエスカレーションするかを決定する。我々のフレームワークSCOUT（Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage）は、過去の類似入力に対する各検出器の振る舞いから、サンプルごとの信頼性とレイテンシを予測することで、この決定を動的に行い、さらに運用者に対して単一の安全性-ユーティリティ閾値を提供する（ここでユーティリティは良性通過率と実経過時間を束ねたものである）。この設定を評価するために、我々はSCOUT-450を構築した。これは、従来のプロンプトインジェクションセットでは過小評価されていた、構造的に複雑でエージェント向けのインジェクションを捉えるベンチマークである。SCOUT-450において、安全性重視の動作点では、常時稼働のGPT-4o判定器と比較して、攻撃成功率を46%削減し、総実経過時間を40%短縮し、良性ユーティリティの低下は5.1ポイントにとどまる。SCOUTはまた、3つの外部ベンチマーク（BIPIA, IPI, IHEval）に転移し、安全性-ユーティリティフロンティアを改善する。

敵対的ハッカー・フィクサー・ループによるエージェントベンチマークの強化
Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

Jun 8

ByZiqian Zhong, Ivgeni Segal, Ivan Bercovich, Shashwat Saxena, Kexun Zhang, Aditi Raghunathan

エージェントベンチマークは、通常手動で作成され脆弱な成果検証器を用いてスコアを評価するため、報酬ハッキングの余地が残されている。我々は5つのターミナルエージェントベンチマークにわたる1,968のタスクを監査し、323件(16%)が最前線モデルに対してタスク説明のみでハッキング可能であることを発見した。これはリーダーボードの順位と強化学習の学習信号の両方を損なうが、標準的な対応は手動かつ事後的である。我々は、タスクごとの手動修正を必要としない、耐エクスプロイト検証器を構築する手法であるハッカー・フィクサーループを導入する。このループは3つのLLMエージェントを交互に動作させる。ハッカーはタスクを解かずに検証器を通過しようと試み、フィクサーは発見されたエクスプロイトを拒否するよう検証器にパッチを適用し、ソルバーはパッチ適用後の検証器が正当な解を依然として受理することを確認する。このループは反復される。各パッチは検証器が報酬を与える対象を再形成し、次のエクスプロイトを表面化させる。さらに、検証器へのアクセス権を追加し、パッチをタスク間で転送可能にすることで、ループが発見するエクスプロイトの範囲を拡大する。 KernelBenchでは、このループにより、公開報告されたエクスプロイトのホールドアウトコーパスにおいて攻撃成功率が62%から0%に低下した。また、ループ内でより弱いエージェントでも、はるかに強力なハッカーに対して防御可能であることが分かった。Gemini 3 Flashのループは、より強力なGemini 3.1 ProとClaude Opus 4.7の攻撃成功率をKernelBenchでそれぞれ76%と61%から0%に低下させ、Gemini 3.1 Proの攻撃成功率はTerminal Bench上の77タスクで39%から17%に低下した。我々は、現在の攻撃対象領域のスナップショットとしてTerminal Wrench（323のハッキング可能環境、3,632のハッキング軌跡）、パッチ適用済み検証器、ループが発見したエクスプロイト、および将来の研究の基盤としての実装を公開する。

エンピリグラフ-サイ: 心理学アブストラクトからの実証関係グラフ抽出のためのデータセットとLLMパイプライン
EmpiriGraph-Psy: A Dataset and LLM Pipeline for Extracting Empirical Relation Graphs from Psychology Abstracts

Jun 6

ByDanqin Zhao, Yicun Liu, Xingwei Tan, Thomas T. Hills

既存の科学関係抽出ベンチマークは主にコンピュータサイエンスなどの分野を対象としており、そこでのエンティティはタスク、手法、データセット、材料、評価指標などである。そのため、心理学のような変数指向の実証的分野にはギャップが存在する。心理学では、知見は構成概念、測定、介入、結果の間の関係として表現される。我々は、変数中心の実証グラフ抽出を導入する。これは、科学論文のアブストラクトを、ノードが正規化された変数、エッジが実証的関係と階層的関係を表す型付きグラフにマッピングするタスクである。このタスクを支援するため、我々はEmpiriGraph-Psyを構築した。これは、分野訓練を受けたアノテーターによって、正規化された変数、概念階層、実証関係タイプ、検証状態が注釈付けされた210件の心理学アブストラクトからなるベンチマークである。我々は、最先端およびオープンウェイトのLLMを、直接抽出と、変数抽出、正規化、階層構築、エビデンス選択、関係抽出、エッジ検証を分離した段階的グラフ構築パイプラインの両方を用いて評価した。段階的パイプラインは直接抽出を大きく上回り、最良の構成ではマクロF1が0.74に達した。エラー分析により、調整関係と概念階層が依然として最も困難なケースであることが示され、科学アブストラクトから高次の実証的主張や暗黙の抽象化構造を抽出することの難しさが浮き彫りになった。

Rectified Flows の漏洩箇所：補間経路に沿ったメンバーシップ信号の特性評価
Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

Jun 5

ByThomas Sesmat, Gabriel Meseguer-Brocal, Geoffroy Peeters

生成モデルが学習データから何を保持しているかを理解することは依然として困難であり、著作権やプライバシーに影響を及ぼす。逐語的な再現を超えて、モデルは学習データのより微妙な痕跡を符号化することがあり、それは出力に現れることはないが、依然として悪用可能である。本研究では、実運用されている生成システムで使用が増加しているRectified Flowについて、このような領域を調査する。Rectified Flowの学習を定義する補間パスX_λ = (1-λ)X_0 + λX_1を解析し、学習データとテストデータの再構成の間にλに対してベル型曲線を描くギャップが存在することを示す。このギャップは学習中に蓄積される一方で、検証指標は安定したままである。この信号は最大値を持ち、その位置をガウス仮定の下で閉形式で導出する。これらの予測を音声と画像の両方で検証し、ベル型構造が普遍的である一方、ピークの予測は仮定が満たされる場合に成立することを示す。概念実証として、このλに依存した構造を利用してメンバーシップ推論攻撃を行い、学習セットのメンバーと非メンバーを識別する。

経験が熟練を生む：自己進化型スキル記憶による汎化可能な医療エージェント推論の実現
Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

Jun 8

ByHaoran Sun, Wenjie Li, Yujie Zhang, Zekai Lin, Fanrui Zhang, Kaitao Chen, Xingqi He, Yichen Li, Mianxin Liu, Lei Liu, Yankai Jiang

医療エージェントシステムは、静的な質問応答だけでなく、対話的な臨床意思決定を支援することが期待されるようになっています。このような状況では、効果的なエージェントは進化する症例にわたって過去の経験を再利用する必要がありますが、既存のメモリ機構はしばしば冗長でノイズが多く、管理が難しい生の履歴を保持しています。さらに重要なことに、それらは将来の推論に本当に有用な記憶をほとんど区別しません。これにより、長期的な臨床推論のためにコンパクトで信頼性の高い経験を蓄積する能力が制限されます。このギャップを埋めるために、我々はSkeMexを提案します。これは、モデルの重みを更新することなく、スキルベースのメモリを通じて医療エージェントを改善する、デプロイ後自己進化フレームワークです。SkeMexは、有益な対話軌跡を、再利用可能な手続き的知識を符号化した構造化スキルに蒸留し、それらを汎用、タスク固有、行動レベルの経験にわたるマルチブランチリポジトリに整理します。どの記憶を再利用し保持すべきかを判断するために、SkeMexは環境からのフィードバックから文脈依存の有用性を推定し、それを価値認識型検索とリポジトリ管理のガイドに使用します。「読み取り→書き込み→評価→管理」の閉ループライフサイクルは、新しいスキルの書き込み、有用性の更新、有用な記憶の促進、有害なエントリの削除を通じて、継続的な進化をさらに支援します。多様な臨床タスクにわたる実験により、SkeMexがオフラインおよびオンラインの両方の設定で、代表的なメモリベースのエージェントを一貫して上回ることが示されました。また、様々なモデルバックボーンにわたって汎化し、転送可能なスキルメモリをサポートします。すべてのデータとコードは公開される予定です。

SigmaScale: SVDベースの低ランク分解と学習されたスケーリング行列を用いたLLM圧縮
SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

Jun 5

ByErnests Lavrinovics, Marco Letizia, Roy Janco, Shai Segal, Johannes Bjerva, Maurizio Pierini

本稿では、打ち切り特異値分解（SVD）に基づく大規模言語モデル（LLM）圧縮を補助するための補助的なスケーリング行列Sを学習する手法、SigmaScaleを提案する。スケーリング行列を解析的に導出する代わりに、SigmaScaleは活性化認識圧縮損失の下で、対角行および列スケーリング変換を定義する2組のベクトルを最適化する。学習されたスケーリングが重み行列の実効的な内在階数を低下させること、それが有効階数エントロピーの低減に反映されること、そしてこの低減が圧縮損失と強く相関することを示す。Llama 3.1 8B InstructおよびQwen3-8Bでの実験により、SigmaScaleがパープレキシティおよびゼロショットベンチマークにおいて、密接に関連する最先端のSVDベース圧縮手法と競合することを示す。学習された活性化認識変換を使用することで、SigmaScaleは個々のモデル重みの構造に適応し、低ランクLLM圧縮へのより柔軟な経路を模索する。特定のタスクで観察された利点により、本手法はLLM推論の計算コスト削減が必要なアプリケーションにとって有効な選択肢となる。

自己評価はすでに存在する：最小限のデータでベースLLMの潜在的な判定器校正を引き出す
Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

Jun 3

ByXiuYu Zhang, Yi Shan, Junfeng Fang, Zhenkai Liang

大規模言語モデルは、他のモデルによって評価されることが増えており、自然な疑問が生じる。すなわち、モデルは自身の出力を評価者がどのようにスコアリングするかを予測できるのか。我々は、この能力が対象を絞った訓練を施す前からほぼ備わっていることを見出した。すなわち、数発のプロンプトを与えられたベースモデルは、三つのベンチマークにわたって、自由形式の応答に対する外部評価者の複数属性の品質スコアを、偶然を大きく上回る精度で既に予測できるのである。我々は、自己評価誘発法（Self-Evaluation Elicitation, SEE）を導入する。これは、短いサイクルを通じてこの潜在能力を表面化させる手法であり、キャリブレーションと連携した強化学習フェーズ（回答を改善し、評価者を予測する）と、それに続くマスク蒸留フェーズ（回答に手を加えずに予測を精緻化する）から構成される。160のユニークな例（強化学習ベースラインの約31分の1の数）から、SEEは三つのベンチマークにわたってホールドアウトキャリブレーションを改善し、回答品質を維持する。誘発された自己評価は、モデル自身のトークン分布内に鋭く局在化しており、訓練時に一度も使用されなかった評価者に対しても安定している。これは、単一の評価者の嗜好ではなく、転移可能な品質概念を示している。これらの結果は、評価者に合わせた自己評価を、獲得の問題ではなく誘発の問題として捉え直すものである。

明暗注意：暗闇で計算を費やす
Chiaroscuro Attention: Spending Compute in the Dark

Jun 6

ByPrateek Kumar Sikdar

標準的なTransformerは、入力が動的なトークン間相互作用を必要とするかどうかにかかわらず、すべての層とトークンに対して一様に自己注意を適用する。本稿では、理論的に正当化された複雑性の指標であるトークンごとのスペクトルエントロピーに基づき、各トークンをDCTスペクトル混合、RBFカーネル混合、完全自己注意の3つの演算子のいずれかにルーティングする4層ハイブリッドTransformer「CHIAR-Former（キアロスクーロ注意）」を提案する。WikiText-103における体系的なアブレーション研究を通じて、ルーティング崩壊を発見した。すなわち、ルーターは一貫してRBFを拒否しDCTと注意を選択しており、スペクトル混合と動的注意が相補的かつ十分であることを明らかにした。専用に設計されたDCT+注意のみの変種は、WikiText-103上でVal PPL 36.54を達成し、全注意のベースライン（PPL 66.62）と比較して45%の改善を、注意FLOPsを62.5%削減した上で実現した。評価をWikiText-2、IMDB感情分類、合成ListOps演算にも拡張し、明確な動作領域を確立した。CHIAR-Formerは、トークンの多様性がスペクトル特化を支える大規模な自然言語テキストで優れる一方、小規模データセットや合成パターンマッチングタスクでは完全注意が依然として優位性を持つ。これらの結果（成功と失敗の両方）は、スペクトルルーティングがいつ、なぜその価値を発揮するのかを定義するものである。

PBSD: 特権的ベイズ自己蒸留による長期的信用割り当て
PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

Jun 8

ByYang Tian, Rui Wang, Xumeng Wen, Junjie Li, Shizhao Sun, Lei Song, Jiang Bian, Bo Zhao

長期的なエージェントタスクは、結果ベースの強化学習において根本的なクレジット割り当ての課題を提起する。すなわち、軌跡レベルの報酬は最終的な正しさを検証するが、どの中間推論ステップやツール操作が結果に寄与したかについての限定的な指針しか提供しない。この困難さは、マルチターン検索エージェントにおいて特に顕著であり、成功した軌跡には誤解を招く行動が含まれる可能性があり、失敗した軌跡には価値ある情報収集ステップが含まれる可能性がある。本稿では、疎な最終報酬の下での細粒度なクレジット割り当てのための、ベイズ較正された自己蒸留手法であるPBSD（Privileged Bayesian Self-Distillation）を提案する。PBSDは、検証された回答の事後対事前確率比を通じて軌跡の品質を測定し、ベイズの定理を適用することで、この推定が困難な回答側の比を、標準的な生徒モデルと特権的な回答条件付き教師モデル間の扱いやすい尤度比に変換する。このベイズ的証拠スコアの自己回帰分解により、各中間ターンが検証された結果を支持するか損なうかを識別するターンレベルのシグナルが得られる。その結果、PBSDは、疎な結果監督をベイズ較正されたターンレベルのクレジットシグナルに変換する原理的かつエレガントな再重み付けスキームを提供し、標準的な方策最適化と完全に互換性を保つ。実験により、PBSDはドメイン内およびドメイン外の両方の設定で一貫して性能を向上させ、短コンテキスト学習から長コンテキスト推論への知識移転を効果的に促進することが示され、その細粒度なクレジット割り当て機構がより効果的な方策学習を促進し、改善された汎化をもたらすことが示唆される。

OASIS: シミュレーションデータ収集から実世界の人型ロボット移動操作へ
OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

Jun 7

ByZehao Yu, Jiakun Zheng, Weiji Xie, Jiyuan Shi, Chenyun Zhang, Chenjia Bai, Xuelong Li

近年のロボット操作の進歩は、大規模なデモンストレーションからの学習によって大きく推進されてきた。しかし、人間型ロボットの移動操作タスクにおいては、既存のデータソースでは軌道品質とスケーラビリティの間に満足のいくトレードオフを見いだせないのが現状である。実世界の遠隔操作は最高品質の軌道を提供するものの、専用の物理的スペースと時間のかかるシーンリセットが必要となる。一方、シミュレーションはこのジレンマを脱する代替手段を提供する。物理的ハードウェアを一切使わずに、クリーンで身体特性に適合したデータを大規模に生成できるからである。本稿では、人間型ロボットの移動操作のためのシミュレーションデータ駆動フレームワークOASISを提案する。OASISは3D生成モデルを用いて、実世界の画像からリアルな物体アセットを自動的に再構築する。このアセットを基に、まずシミュレーション内で遠隔操作により軌道を収集し、その後ポストプロセッシング段階で多様なドメインランダム化のもとで軌道を拡張する。得られたシミュレーションデータを用いて、さらに人間型ロボットの移動操作のための階層型視覚運動ポリシーを設計する。実物の人間型ロボットを用いた広範な実験により、ゼロショット展開下において、シミュレーションデータで学習したポリシーは、実ロボットの遠隔操作データで学習したポリシーよりもほとんどのタスクで高い成功率を達成することが示された。これは主に、シミュレーションのレンダリングがカバーする広範な照明や環境のバリエーションが、実ロボットデータでは捉えきれていないためである。プロジェクトページは https://oasis-humanoid.github.io/ で公開されている。

コサインは誤解を招く：補助損失は視覚言語モデルを再形成するのであって、その潜在表現を再形成するのではない
Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents

Jun 4

ByXiuYu Zhang, Junfeng Fang, Zhenkai Liang

潜在視覚推論（LVR）は、視覚言語モデル（VLM）において、知覚と回答生成の間に教師あり潜在トークンを挿入する手法である。この分野では、これらの潜在表現とその視覚ターゲットとの間のアライメント（コサイン類似度や平均二乗誤差（MSE））を、訓練損失および品質指標の両方として用いており、より良いアライメントがより良い回答をもたらすと仮定している。我々は設計した5種類のLVRバリアントのマトリックスを用いてこれを検証し、仮定が逆転していることを発見した。すなわち、コサインアライメントは5つすべてにおいて精度と負の相関を示した（r = -0.94）。この結果を説明するために、我々はPRISMを導入する。これは推論時に使用する一対の診断手法であり、回答がどこでデコード可能かを問う線形プローブと、潜在表現が荷重を支えているかどうかを問う破壊テストから成る。教師あり潜在表現はほとんど迂回されている。これらを破壊しても、精度の変化は最大で4ポイントである。回答は潜在表現の下流ではデコード可能であるが、その位置ではデコード不可能であり、このデコード可能性のギャップの大きさは、摂動下における各バリアントが自身の潜在表現にどの程度依存しているかを予測する。損失に対する情報ボトルネック的解釈と一致して、補助目的関数は、名目上最適化される潜在変数ではなく、共有パラメータを介して言語モデルを再形成する。

Skill-3D: エージェント的3D空間推論のためのシーン認識スキルの進化
Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

Jun 5

ByHaoyuan Li, Zhengdong Hu, Jun Wang, Hehe Fan, Yi Yang

本論文では、エージェント型の3D空間理解、すなわちMLLMエージェントがツール使用を通じて3D推論を行う手法について探究する。既存手法はしばしばツールを誤用し、3Dシナリオにおいて偏ったツール選好を示すため、エージェント型パラダイムは非エージェント型戦略に対するわずかな利得しか得られていない。我々は、3D空間推論タスクがシーンごとに異質である一方、これらのエージェントは特定のシーンやタスクに応じてツールを選択するのではなく、すべてのシーンに一律のツール使用戦略を適用していることを明らかにする。この問題に対処するため、我々は自己進化的なシーン認識スキルを学習するフレームワークSkill-3Dを提案する。具体的には、Skill-3Dはタスクシーンを識別し、エージェントのツール使用軌跡をScene Memoryに記録する。Scene Memoryでは、類似シーンからの成功軌跡が集約され、再利用可能なシーン認識スキルに蒸留され、失敗軌跡は教訓としてスキルに付加される。訓練中、類似シーンが再び現れると、対応するスキルが注入されてエージェントを導き、新たな軌跡を生成する。その成功と失敗がさらにスキルを洗練させ、メモリとスキルライブラリが共進化するループを形成する。実験の結果、Skill-3Dは3D空間推論におけるツール利用を大幅に改善し（VSI-Benchで39%から78%へ）、エージェントを正しく十分なツール使用へと導くことが示された。例えば、MMSI-BenchではGemini-3-Flashを67%向上させる。さらに、スキル誘導軌跡に基づくエージェント型ポストトレーニングを実施し、VSI-BenchにおいてQwen3-VL-8Bを43%向上させる。

Lean4Agent: エージェントワークフローと軌跡の形式的モデリングと検証
Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Jun 2

ByRuida Wang, Jerry Huang, Pengcheng Wang, Xuanqing Liu, Luyang Kong, Tong Zhang

大規模言語モデル（LLM）に信頼性の高い多段階ワークフローを実行させることは、人工知能における中心的課題となっている。近年、LLMのエージェント機能は進歩しているが、ほとんどのエージェントシステムは、そのワークフローや実行軌跡を仕様化・検証・デバッグするための形式的手法を依然として欠いている。この課題は数学における長年の問題、すなわち自然言語（NL）の曖昧さが形式言語（FL）の開発を動機づけてきた状況を反映している。このパラダイムに着想を得て、我々は **Lean4Agent** を提案する。これは、我々の知る限り、依存型形式言語であるLean4を用いてエージェントの振る舞いをモデル化・検証する初めてのフレームワークである。**Lean4Agent** は **FormalAgentLib** を導入する。これは拡張可能なLean4ライブラリであり、エージェントワークフローの意味的一貫性を明示的な仮定の下で形式的にモデル化・検証し、軌跡によって明らかになる実行時障害の局所化を可能にする。**FormalAgentLib** を基盤として、さらに **LeanEvolve** を開発した。これは **FormalAgentLib** の結果を適用してワークフローを修正し、その能力を向上させる。SWE-Bench-Verifiedの困難な問題サブセットとELAIP-Benchのサブセットを用いた、5つの主要LLMにわたる広範な実験により、検証に合格したワークフローは不合格のものよりも平均 **11.94%** 優れており、**LeanEvolve** はSWE性能を平均 **7.47%** さらに向上させることが示された。さらに **Lean4Agent** は、表現力豊かな依存型形式言語を用いてエージェントの振る舞いを形式的にモデル化・検証する新たな研究分野の基盤を確立する。

混合専門家モデルの刈り込みと蒸留による高密度言語モデルへの変換
Pruning and Distilling Mixture-of-Experts into Dense Language Models

May 27

ByJunhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho

混合エキスパート（MoE）は、現在のフロンティア言語モデルにおける主流のアーキテクチャであるが、すべてのエキスパートパラメータをメモリに読み込む必要があるため、メモリ制約のあるデプロイ環境には適さない。既存の圧縮手法ではエキスパート数を削減するものの、出力は依然としてMoEモデルであり、同じ根本的な制約を抱えている。本稿では、訓練済みMoEモデルを標準的な完全密なアーキテクチャに変換するための初の体系的なフレームワークを提案する。エキスパートをスコアリングし、選択し、グループ化した後、密なFFNに連結し、MoE教師からの知識蒸留によって洗練させる。我々は、Qwen3-30B-A3Bにおいて、7種類のスコアリング手法、5種類のグループ化手法、2種類のマグニチュードスケーリング手法を、選択するエキスパート数を変えて評価し、合計350の設定を検証した。その結果、スコアリング手法の選択が最も影響が大きく、我々が新たに提案する多様性を考慮したスコアリングが、Qwen3-30B-A3B、DeepSeek-V2-Lite、GPT-OSS-20Bにおいて、従来手法を一貫して上回ることが示された。パラメータ数を一致させた比較実験では、MoEから密への変換は、密から密への枝刈りと比較して、約4Bトークンの蒸留後、平均下流タスク精度で+6.3パーセンテージポイント向上し、訓練のウォールクロック速度は1.6倍高速であった。

正直な嘘：再帰的エージェントにおける記憶の作話を理解する
Honest Lying: Understanding Memory Confabulation in Reflexive Agents

May 31

ByPrakhar Dixit, Sadia Kamal, Tim Oates

Reflexion型エージェントは自己生成された内省を記憶として利用し、エージェントが自身の失敗を正確に診断できることを暗に前提としている。我々はこの前提が系統的に失敗しうることを示す。ALFWorldとHumanEvalにおいて、エージェントはタスクに対する誤った解釈を自信を持って記憶し、環境が毎回正しいタスクにリセットされるにもかかわらず、それを反復して行動に用い続ける。我々はこの失敗モードを記憶の作話と名付け、誤った内省内容への繰り返し依存を検出するログベースの指標である内省繰り返し率（RRR）を導入する。RRRを用いて、ALFWorldでは121件の内省のうち正しい対象物体に言及したものが0件である16個の凍結環境を特定し、HumanEvalでも同様の4事例を特定した。我々の緩和策は、自由形式の自己診断を、軌跡レベルの失敗信号をプログラムで抽出する方式に置き換え、正しい物体の言及を0%から86%に向上させ、RRRを0.64から0.10に低減し、ALFWorldの16個の凍結環境のうち3つを解決した。これは、内省的記憶が誤りを修正するどころか、誤った信念を強化しうることを示唆している。

スタンドオフ長波長赤外ハイパースペクトルイメージングにおける大気補正のためのセットベーストランスフォーマー
Set-Based Transformer for Atmospheric Compensation in Standoff LWIR Hyperspectral Imaging

Jun 6

ByFabian Perez, Nicolas Quintero, Jeferson Acevedo, Hoover Rueda-Chacon

スタンドオフジオメトリでのパッシブ長波長赤外（LWIR）ハイパースペクトルイメージングは、大気吸収・放射および反射放射に依存するため、対象物の情報を得るには大気補正が不可欠である。その重要性にもかかわらず、この補正は実際の適用やモデル化の難しさからほとんど見過ごされてきた。本論文では、異なるスタンドオフ距離で収集された複数の放射輝度測定値を入力とし、透過率、大気経路放射、および共通の下降放射スペクトルを同時に推定する軽量なセットベースの深層学習フレームワークを提案する。学習された表現をスパースオートエンコーダで分析したところ、位置情報の教師なしにもかかわらず、いくつかの潜在特徴がテストデータの地理的に一貫したサブセットで活性化していることが観察された。MODTRANで生成されたスタンドオフLWIRデータセットでの実験により、推定されたすべてのプロダクトにおいて低いスペクトル歪みが示された。データセットとコードは https://factral.co/SAE-LWIR/ で公開されている。

CIPER: クロスビュー画像検索と姿勢推定のための統一フレームワーク
CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

Jun 3

ByYurim Jeon, Dongseong Seo, Seung-Woo Seo

クロスビュー地理位置推定は、地上画像を航空画像データベースと照合することでその地理的位置を推定する技術である。既存手法は大規模検索または高精度な姿勢推定のいずれかでこの課題に取り組むが、両方を同時に実現するものではない。検索ベースの手法は広域探索を可能にする一方で位置推定精度が犠牲となり、姿勢推定手法は狭い探索範囲内でのみ高精度を達成する。これらのパイプラインを単純にカスケード接続すると、誤差伝播と一貫性のない特徴表現が生じる。本稿では、クロスビュー地理位置推定を、都市規模の検索と高精度な3自由度姿勢推定を同時に要求する統一問題として定式化する。我々はCIPER（Cross-view Image-retrieval and Pose-estimation transformER）を提案する。これは単一のアーキテクチャであり、相互に有益な特徴学習を通じて両タスクを共同で実行する。CIPERは共有のトランスフォーマーエンコーダとタスク固有のトークンを用いて、大域的な検索特徴と空間位置特定の手がかりを分離する。地上ビューと航空ビューの間の大きなドメインギャップを埋めるため、双方向クロスアテンションの空間クエリとして地上特徴を利用する双方向トランスフォーマー姿勢デコーダを導入する。さらに、セット予測戦略により、統一マルチタスク目的の下で安定した3自由度回帰を可能にする。VIGOR、KITTI、Ford Multi-AVでの実験では、特に限られた視野や任意の向きの条件下で競争力のある性能を示す。コードはhttps://github.com/yurimjeon1892/CIPERで入手可能である。

精度は忠実性ではない：完全オラクルを用いた接地生成のカバレッジを考慮した評価
Precision Is Not Faithfulness: Coverage-Aware Evaluation of Grounded Generation with a Complete Oracle

Jun 8

ByJuan S. Santillana

参考にすべき正解データが存在しない状況で用いられる忠実性指標は、モデルが出力する個々のアトミックな主張を検証するものであり、根拠に基づく生成の評価にますます活用されている。本稿では、これらの指標に共通する盲点を明らかにする。すなわち、それらは適合率のみを測定する（主張が正しく裏付けられているかどうかを評価する）ため、モデルがほとんど何も述べずにほぼ完璧な忠実性スコアを得ることが可能であり、結果として「回答を控える」行動を促進する。この問題を定量化可能にするため、我々はF1テレメトリという領域に注目する。ここでは、戦略的な正解データが決定論的に、そして何より完全に導出される。すなわち、各判断に対して、重要であった事実の全集合が既知である。この完全性は、オープンドメインの忠実性ベンチマークには欠けている性質であり、これにより適合率と並んで再現率（関連する事実の網羅率）を正確に測定することが可能となる。150レースにわたる7,253の判断事例からなる多言語（英語・スペイン語・ポルトガル語）ベンチマークにおいて、最も適合率の高いフロンティアモデルは関連事実の半分未満しか網羅しておらず、F1値では最下位となった。つまり、網羅性を考慮することでシステムの順位が大きく変わるのである。この現象は、第二の完全なオラクル領域であるNOAAの天気予報でも確認された。プロンプトアブレーション実験により、この低い網羅率はプロンプト不足による人為的なものではないことが示された。すなわち、モデルに徹底的な回答を明示的に求めても、そのギャップは埋まらないのである。我々は、忠実性と網羅性を統合した単一スコアを提案し、その指標を検証する（制御された摂動実験、モデルフリーの正規表現抽出器と異なる系統のLLM抽出器間での一致、システムレベルのスピアマン相関係数1.0）。さらに、参照データを用いずに適合率と再現率を改善する、検証器誘導型の生成手法を提供する。また、ベンチマーク、構造化アノテーション、指標、ベースライン、そしてインタラクティブデモを公開する。

文法に基づく推論：合成的な言語推論トレースは低リソース機械翻訳を向上させることができるか？
Reasoning over Grammar: Can Synthetic Linguistic Reasoning Traces Enhance Low-Resource Machine Translation?

Jun 2

ByRenhao Pei, Yihong Liu, Sampo Pyysalo, Hinrich Schütze, Shaoxiong Ji

大規模言語モデル（LLM）は、インコンテキスト学習を通じて言語リソースを取り入れることで、極めて低リソースな言語に対する機械翻訳（MT）の有望な手法を提供する。しかしながら、LLMは翻訳中に文法的情報を効果的に適用することにしばしば苦慮する。連鎖思考推論における最近の進展に着想を得て、我々は低リソースMTが言語分析と文法的推論の構造化された中間ステップから恩恵を受けられるかを調査する。我々は、ユニバーサル依存関係ツリーバンク、辞書、文法ルールバンクから段階的な言語推論トレースを自動生成するパイプラインを提案する。我々はこれらのトレースを、シベ語とチンタン語をテストケースとして、インコンテキスト学習（ICL）、教師ありファインチューニング（SFT）、強化学習ファインチューニング（RFT）の三つの設定で評価する。我々の結果は、言語推論トレースが推論時のガイダンスとして最も効果的であることを示している。すなわち、ICLにおいて、信頼性の高い文固有のトレースは、ほとんどのモデル、言語、評価指標において翻訳性能を大幅に向上させる。対照的に、言語推論トレースを訓練データとして使用すると、モデルはトレースの形式を学習するものの誤った内容を生成することが多く、そのため向上は小さく一貫性も低い。これらの発見は、LLMは信頼性の高い言語分析が与えられれば低リソースMTに文法的情報を活用できる一方で、そのような分析を生成することを学習することが主要なボトルネックであり続けることを示唆している。

PIPE-Cypher: Text-to-Cypherシステム向け自動エンタープライズベンチマーク生成
PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

Jun 7

BySuraj Ranganath, Anish Raghavendra

エンタープライズプロパティグラフは、スキーマ構造、内部用語、ドメインの前提、ガバナンス制約、ユーザーインタラクションパターンにおいて多様性に富んでいます。そのため、実運用に即したText2Cypherベンチマークは、ユーザーやエージェントがそのグラフに対して実際に問い合わせる質問を反映したものとなります。しかし、スキーマや値は一意であり、グラフの構造は時間とともに変化するため、このようなベンチマークを作成するのは困難です。各自然言語クエリペアは実行可能であり、実際のグラフエンティティを使用し、多様性を維持し、クエリタイプや難易度間でバランスが保たれている必要があります。本稿では、動作中のプロパティグラフと、顧客の質問、アナリストのログ、エージェントツールコールからのオプションのシードクエリを、バランスの取れた自然言語からCypherへのベンチマークに変換するローカルベンチマーク生成パイプラインであるPIPE-Cypherを提案します。PIPE-Cypherは、スキーマプロファイリング、リバースクエリのグラウンディング、制約付き生成、決定論的Cypherガバナンス、実行検証、編集、多様性制御、キャリブレーションされたローカルLLM判定器を組み合わせています。ローカルのQwen3.5-9Bによる生成と判定を用いて、PIPE-Cypherは3,000件の受け入れられたFinBench/SNBの例をエクスポートし、3つの監査済みアブレーションスイートを完了し、人間のラベルで判定器の動作をキャリブレーションし、11のローカルダウンストリームモデルを評価します。結果として得られるベンチマークは意図的に識別力を高めています。ゼロショット転送は弱い一方、数ショット制御では、スキーマ固有の例のバンクが互換性のあるモデルファミリーに役立つ可能性があることを示しています。以上により、PIPE-CypherはText2Cypherベンチマークを、グラフ、そのユーザー、そして対象となるワークロードと共に進化する反復可能なプロセスにします。

EMMA：マルチモーダルデータからの複数の物理パラメータの抽出
EMMA: Extracting Multiple physical parameters from Multimodal Data

May 21

ByFarhat Shaikh, Ayan Banerjee, Sandeep Gupta

我々はEMMAを紹介する。これは物理情報に基づくマルチモーダルフレームワークであり、生のビデオ、音声、画像ベースの時系列観測から直接、システムのすべての識別可能な力学パラメータを復元する。先行するビデオのみの手法が、遮蔽状態、隠れたアクチュエーション入力、あるいは既知の初期条件や座標系に関する仮定に苦慮していたのに対し、EMMAは統一された連続時間モデル内で、明示的なパラメータ、暗黙的な力学成分、および較正不変量の共同推論を実行する。EMMAはLiquid Time-Constant（LTC）ネットワークを活用して異種モダリティから潜在的な力学を学習し、物理制約付き損失関数によって支配微分方程式との整合性を強制する。統一された特徴パイプラインにより、ビデオ軌跡、音響シグネチャ、チャート由来の計測値にわたって一貫した位置合わせが可能となり、EMMAはセグメンテーションマスク、微分可能レンダリング、特殊センサーを必要とせずに、強制・暗黙・多変量の力学下でパラメータを推定できる。5つの標準力学ベンチマーク（75のDelfysビデオ）、隠れた入力を含む実世界のローバーおよびクワッドローターシステム、生物系やカオス系を対象としたシミュレーションチャートのケーススタディを含む100以上のシナリオにおいて、EMMAは頑健なマルチパラメータ復元を実現し、既存のシングルモダリティ手法や方程式発見ベースラインを大幅に上回る性能を示した。これらの結果は、EMMAが日和見的なマルチモーダルデータから物理整合的なモデルを抽出するための汎用的かつスケーラブルなソリューションであることを確立する。コードとデータは以下で入手可能：https://github.com/ImpactLabASU/EMMA-CVPR2026