HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

48 papers found

エージェントハーネスとしてのコード
Code as Agent Harness

May 18

ByXuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He

172

近年の大規模言語モデル（LLM）は、競技プログラミングからリポジトリレベルのソフトウェア工学に至るまで、コードの理解と生成において強力な能力を示している。新興のエージェントシステムでは、コードはもはや単なる出力対象ではない。エージェントの推論、行動、環境モデリング、実行ベースの検証のための動作基盤として、ますます重要な役割を果たしつつある。本稿では、この変化をエージェントハーネスの観点から捉え、「コードをエージェントハーネスとして」、すなわちコードをエージェントインフラの基盤として位置づける統一的な視点を導入する。この視点を体系的に研究するために、本サーベイは三つの相互接続された層で構成する。第一に、ハーネスインターフェースを研究する。ここではコードがエージェントを推論、行動、環境モデリングに接続する。第二に、ハーネスメカニズムを検討する。長期実行のための計画、記憶、ツール使用、ならびにハーネスを信頼性・適応性のあるものにするフィードバック駆動の制御と最適化である。第三に、ハーネスを単一エージェントシステムからマルチエージェント設定へと拡張する議論を行う。そこでは共有コード成果物がマルチエージェントの協調、レビュー、検証を支援する。これらの層にわたり、コードをエージェントハーネスとして用いる代表的な手法と実用的応用を、コーディングアシスタント、GUI/OS自動化、身体化エージェント、科学的発見、パーソナライゼーションとレコメンデーション、DevOps、エンタープライズワークフローにわたってまとめる。さらに、最終的なタスク成功を超えた評価、不完全なフィードバック下での検証、回帰のないハーネス改善、複数エージェント間での一貫した共有状態、安全上重要なアクションに対する人間による監視、マルチモーダル環境への拡張など、ハーネス工学における未解決の課題を概説する。コードをエージェントAIのハーネスとして中心に据えることにより、本サーベイは実行可能、検証可能、かつ状態保持可能なAIエージェントシステムへの統一的なロードマップを提供する。

SkillsVote：エージェントスキルのライフサイクルガバナンス - 収集、推薦から進化まで
SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

May 18

ByHongyi Liu, Haoyan Yang, Tao Jiang, Bo Tang, Feiyu Xiong, Zhiyu Li

117

長期間稼働するLLMエージェントは、再利用可能な経験となる可能性のある痕跡を残すが、生の軌跡はノイズが多く管理が難しい。我々はAgent Skillsを、実行可能なスクリプトと非実行可能な手順ガイダンスを結合する経験スキーマとして捉える。しかし、オープンなスキルエコシステムには冗長で不均一、環境に敏感なアーティファクトが含まれており、無差別な更新は将来のコンテキストを汚染する可能性がある。本稿では、Agent Skillsの収集、推奨から進化に至るライフサイクルガバナンスフレームワークであるSkillsVoteを提案する。SkillsVoteは百万規模のオープンソースコーパスをプロファイリングし、環境要件、品質、検証可能性を評価した上で、検証可能なスキルのためのタスクを合成する。実行前には、構造化スキルライブラリ上でエージェント的ライブラリ検索を行い、指示的なスキルコンテキストを公開する。実行後には、軌跡をスキルにリンクしたサブタスクに分解し、結果をスキル使用、エージェント探索、環境、結果信号に帰属させ、成功した再利用可能な発見のみを証拠ゲート付き更新に受け入れる。評価では、オフライン進化によりTerminal-Bench 2.0におけるGPT-5.2の性能が最大7.9ポイント向上し、オンライン進化によりSWE-Bench Proの性能が最大2.6ポイント向上した。全体として、システムが露出、クレジット、保存を制御する場合、管理された外部スキルライブラリは、モデル更新なしでフリーズされたエージェントを改善できる。

LongLive-2.0: 長編動画生成のためのNVFP4並列インフラストラクチャ
LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation

May 18

ByYukang Chen, Luozhou Wang, Wei Huang, Shuai Yang, Bohan Zhang, Yicheng Xiao, Ruihang Chu, Weian Mao, Qixin Hu, Shaoteng Liu, Yuyang Zhao, Huizi Mao, Ying-Cong Chen, Enze Xie, Xiaojuan Qi, Song Han

101

本稿では、NVFP4に基づく並列インフラストラクチャ「LongLive-2.0」を提案する。これは長編動画生成の学習・推論ワークフロー全体を対象とし、速度とメモリのボトルネックに対処するものである。学習においては、シーケンス並列自己回帰（AR）学習を導入し、バランス型SPとして具体化する。これは、各ランク上でクリーンな履歴とノイズを含むターゲットの時間的チャンクをペアリングすることにより、効率的な教師強制レイアウトとSP実行を共設計し、SP対応チャンク型VAE符号化を伴う自然な教師強制マスクを実現する。NVFP4精度と組み合わせることで、学習中のGPUメモリコストを削減し、GEMM計算を高速化する（GEMMの割合は動画長の増加に伴い増大する）。さらに、高品質なインフラとデータセットにより、極めてクリーンな学習パイプラインが可能になることを示す。ODE初期化とその後の分布マッチング蒸留（DMD）に依存する既存のSelf-Forcing系列手法とは異なり、LongLive-2.0は拡散モデルを直接、長編・マルチショット・インタラクティブ自己回帰（AR）拡散モデルへと調整する。これは、単独のLoRA重みにより、さらにリアルタイム生成（4～2段階のノイズ除去ステップ）に変換可能である。Blackwell GPU上での推論では、W4A4 NVFP4推論を有効化し、KVキャッシュをNVFP4に量子化してメモリ節約を図るとともに、非同期ストリーミングVAE復号によりエンドツーエンドのスループットを向上させる。Blackwell以外のGPUアーキテクチャでは、SP推論を展開してBlackwell GPUと同等の速度を実現し、量子化KVキャッシュはSPのGPU間通信を削減する。実験では、学習で最大2.15倍、推論で最大1.84倍の高速化を達成した。LongLive-2.0-5Bは、ベンチマークで強力な性能を維持しつつ、45.7 FPSの推論を実現する。我々の知る限り、LongLive-2.0は長編動画生成のための初のNVFP4学習・推論システムである。

Lance: マルチタスクシナジーによる統一マルチモーダルモデリング
Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18

ByFengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

本稿では、画像と動画の両方に対応したマルチモーダル理解、生成、編集を統合的に実現する軽量なネイティブ統一モデル「Lance」を提案する。Lanceはモデルの容量拡大やテキスト-画像優位の設計に依存するのではなく、協調的なマルチタスク学習による実用的な統合マルチモーダルモデリングのパラダイムを探求する。その基盤は、統一的なコンテキストモデリングと分離可能な機能経路という2つの核心的原則に置かれている。具体的には、Lanceはスクラッチから学習され、共有されたインターリーブ型マルチモーダル系列に対してデュアルストリーム混合専門家（MoE）アーキテクチャを採用し、理解と生成の経路を分離しつつ、結合的なコンテキスト学習を可能にする。さらに、異種の視覚トークン間の干渉を軽減し、クロスタスクの整合性を高めるために、モダリティ認識型回転位置符号化（RoPE）を導入する。学習過程では、能力指向の目的関数と適応的なデータスケジューリングを備えた段階的マルチタスク学習パラダイムを採用し、意味理解と視覚生成性能の両方を強化する。実験結果は、Lanceが画像および動画生成において既存のオープンソース統合モデルを大幅に凌駕しつつ、強力なマルチモーダル理解能力を維持することを示している。ホームページは https://lance-project.github.io で公開されている。

自動研究のためのAI：ロードマップとユーザーガイド
AI for Auto-Research: Roadmap & User Guide

May 18

ByLingdong Kong, Xian Sun, Wei Chow, Linfeng Li, Kevin Qinghong Lin, Xuan Billy Zhang, Song Wang, Rong Li, Qing Wu, Wei Gao, Yingshuo Wang, Shaoyuan Xie, Jiachen Liu, Leigang Qu, Shijie Li, Lai Xing Ng, Benoit R. Cottereau, Ziwei Liu, Tat-Seng Chua, Wei Tsang Ooi

AI支援による研究は新たな段階を迎えている。完全自動化システムはわずか15ドルで研究論文を生成できるようになり、長期的なエージェントは最小限の人間の入力で実験の実行、原稿の作成、批評のシミュレーションまで行えるようになった。しかし、この生産性の最前線は、より深い誠実性の問題を露呈している。科学的なプレッシャーの下では、最先端のLLMでさえも結果を捏造し、隠れたエラーを見逃し、新規性を確実に判断することができないのである。2026年4月までの進展を研究対象とし、我々は研究ライフサイクル全体にわたるAIのエンドツーエンド分析を、4つの認識論的フェーズに整理して提示する。すなわち、「創成」（アイデア生成、文献レビュー、コーディングと実験、表と図）、「執筆」（論文執筆）、「検証」（ピアレビュー、反論と改訂）、そして「普及」（ポスター、スライド、動画、ソーシャルメディア、プロジェクトページ、対話型エージェント）である。我々は、信頼できる支援と信頼できない自律性との間に、段階に依存した明確な境界線を特定した。すなわち、AIは構造化された、検索に基づく、ツールを介したタスクでは優れているが、真に斬新なアイデア、研究レベルの実験、科学的判断においては脆弱なままである。生成されたアイデアは実装後にしばしば劣化し、研究コードはパターンマッチングのベンチマークに大きく遅れをとっており、エンドツーエンドの自律システムは主要な学会の採択基準に一貫して達していない。さらに、より高度な自動化は、障害モードを排除するのではなく隠蔽する可能性があり、人間が統制する協調が最も信頼できる展開パラダイムであることを示す。最後に、我々は構造化された分類法、ベンチマークスイート、ツール一覧、フェーズ横断的な設計原則、そして実務者向けの実践ガイドを提供し、関連リソースはプロジェクトページで管理している。

CHI-Bench：AIエージェントは長期間にわたるエンドツーエンドのポリシー豊富な医療ワークフローを自動化できるか？
CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

May 15

ByHaolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

現実的なヘルスケア業務のエンドツーエンド自動化には、現在のベンチマークでは評価が不足している3つの能力が求められる。すなわち、ポリシー密度（意思決定が医療、保険、業務ルールの大規模なライブラリに基づいていなければならないこと）、マルチロール構成（単一のタスクにおいてエージェントが複数の役割を担い、それらを引き継ぎながら遂行すること）、そして多角的な対話（中間的なワークフロー手順が、ピアレビューや患者へのアウトリーチなど、複数ターンにわたる対話で構成されること）である。本稿では、プロバイダー事前認可、支払者の利用管理、ケア管理の3領域にわたる長期的なヘルスケアワークフローのベンチマークであるχ-Benchを紹介する。各タスクは、臨床事例をエージェントに提示し、87個のMCPツールを介して公開された20のヘルスケアアプリからなる高忠実度シミュレータ上で、1,290以上の文書からなるマネージドケア業務ハンドブックスキルに従い、ツール呼び出しとロール成果物の作成を通じて終端状態に到達させるものである。30のエージェントハーネス/モデル構成の中で、最高性能のエージェントはタスクの28.0%しか解決できず、厳格なpass^3基準では20%を超えるエージェントは存在せず、全タスクを単一セッションで実行した場合の性能は3.8%にまで低下した。これらの結果は、同様のギャップが、ポリシー集約型、ロール構成型、かつ不可逆的な他のエンタープライズ領域でも表面化する可能性があるという仮説を提起する。

Code-as-Room: トップダウンビュー画像からのエージェントコード合成による3Dルーム生成
Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis

May 18

ByYixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu

現実的で機能的な3D屋内空間の設計は、インテリアデザイン、バーチャルリアリティ、ゲーム、身体化AIなど幅広いアプリケーションにおいて不可欠である。近年、MLLMベースのアプローチはテキスト記述や参照画像からの3D空間合成で大きな可能性を示しているものの、テキストベースの手法は正確な空間情報の把握が難しく、既存の画像条件付きエージェントは俯瞰図からの部屋全体の生成において不安定性や無限ループの問題を抱えている。これらの制約に対処するため、我々はBlenderコードで3D空間を表現する、構造化実行ハーネスを備えたMLLMベースのエージェンティックフレームワーク「Code-as-Room」を提案する。本フレームワークは、俯瞰図の部屋画像を入力として、参照画像を解析してシーン要素とその空間関係を抽出し、幾何形状、マテリアル、照明に関する実行可能なBlenderコードを原理に基づいた多段階パイプラインで合成する。また、既存のエージェントベースフレームワークに内在するコンテキスト忘却を軽減するため、段階間メモリモジュールを維持する。さらに、コードベースの3D空間合成のための専用ベンチマークを導入し、多様な評価プロトコルを包含する。このベンチマークに基づき、既存のエージェントベース手法との包括的な比較を行い、提案する実行ハーネスの有効性を検証する。

KVPO: ODEネイティブGRPOによるKVセマンティック探索を介した自己回帰的ビデオアライメント
KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration

May 14

ByRuicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li

ストリーミング自己回帰（AR）動画生成器を人間の嗜好に合わせることは困難である。既存の強化学習手法は主にノイズベースの探索とSDEベースの代理ポリシーに依存しており、これらは蒸留ARモデルの決定論的なODEダイナミクスと適合せず、長期的な一貫性に重要な高レベルの意味的ストーリー進行ではなく、低レベルの外観を摂動させる傾向がある。これらの限界に対処するため、我々はKVPOを提案する。これはストリーミング動画生成器を調整するための、ODEネイティブなオンラインGroup Relative Policy Optimization（GRPO）フレームワークである。多様性探索のために、KVPOは因果的意味的探索パラダイムを導入する。これは変動の源泉を確率的ノイズから過去のKVキャッシュに移す。過去のKVエントリを確率的にルーティングすることで、データ多様体上に厳密に留まる意味的に多様な生成ブランチを構築する。ポリシモデリングのために、KVPOはTrajectory Velocity Energy（TVE）に基づく速度場代理ポリシーを導入する。TVEはフローマッチング速度空間におけるブランチ尤度を定量化し、ネイティブなODE定式化と完全に整合した報酬重み付け対比目的関数をもたらす。複数の蒸留AR動画生成器に対する実験により、単一プロンプトの短編動画および複数プロンプトの長編動画の両設定において、画質、動き品質、テキスト-動画アライメントで一貫した改善が示された。

OProver: エージェント指向形式的定理証明のための統一フレームワーク
OProver: A Unified Framework for Agentic Formal Theorem Proving

May 17

ByDavid Ma, Kaijing Ma, Shawn Guo, Yunfeng Shi, Enduo Zhao, Jiajun Shi, Zhaoxiang Zhang, Gavin Cheung, Jiaheng Liu, Zili Wang

形式定理証明の分野における最近の進展は、大規模な証明生成や検証器を考慮した訓練によって恩恵を受けているが、エージェント的な証明手法がプローバーの訓練に組み込まれることは稀であり、推論時にのみ現れる。本稿では、Lean 4におけるエージェント的定理証明のための統一フレームワークであるOProverを提案する。OProverは、失敗した証明試行を、検索されたコンパイラ検証済み証明とLeanコンパイラのフィードバックを用いて反復的に修正する。OProverは、継続事前学習とそれに続く反復的事後訓練によって訓練される。各反復では、エージェント的証明を実行し、新たに検証された証明をOProofsと検索用メモリに索引付けし、修復軌跡をSFTデータとして使用し、未解決の難解事例を強化学習に用いる。OProofsは、公開されたLeanリソース、大規模な証明合成、およびエージェント的証明の軌跡から構築されており、177万のLean文、686万のコンパイラ検証済み証明、および検索コンテキスト、失敗試行、フィードバック、修復を含む系列化された軌跡を収録している。5つのベンチマークにおいて、OProver-32BはMiniF2F（93.3%）、ProverBench（58.2%）、PutnamBench（11.3%）で最高のPass@32を達成し、MathOlympiad（22.8%）とProofNet（33.2%）では2位となり、これまでのオープンウェイトの全証明プローバーよりも多くのトップ順位を獲得した。

事後学習済みMoEは自己蒸留により半数の専門家をスキップできる
Post-Trained MoE Can Skip Half Experts via Self-Distillation

May 18

ByXingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou

Mixture-of-Experts（MoE）は、スパースなエキスパート活性化により言語モデルを効率的にスケールし、さらにその動的バリアントは入力に応じて活性化するエキスパートを調整することで計算量を削減する。既存の動的MoE手法は通常、ゼロからの事前学習やタスク固有の適応に依存しており、完全に訓練されたMoEの実用的な変換は未開拓のままである。このような適応を可能にすれば、容易なトークンが推論時に不要なエキスパートをバイパスできるようになり、推論コストを直接軽減できる。本稿では、Zero-Expert Self-Distillation Adaptation（ZEDA）を導入する。これは、訓練済みの静的MoEモデルを効率的な動的モデルに変換する低コストなフレームワークである。このアーキテクチャ変換を安定化するため、ZEDAは各MoE層にパラメータフリーのゼロ出力エキスパートを注入し、拡張されたモデルを2段階の自己蒸留を通じて適応させる。その際、元のMoEを凍結された教師として利用し、グループレベルのバランス損失を適用する。Qwen3-30B-A3BとGLM-4.7-Flashにおいて、数学、コード、指示追従を網羅する11のベンチマークで、ZEDAはわずかな精度低下でエキスパートのFLOPsの50%以上を削減する。これは、2つのモデルで最強の動的MoEベースラインをそれぞれ6.1ポイントおよび4.0ポイント上回り、エンドツーエンドの推論速度を約1.20倍向上させる。

VideoSeeker: ネイティブなエージェントツール呼び出しによるインスタンスレベルの動画理解の促進
VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

May 15

ByYiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

大規模視覚言語モデル（LVLM）は動画理解において顕著な進歩を示してきたが、インスタンスレベルの精密な時空間定位を必要とするタスクでは依然として大きな課題に直面している。既存の手法は主にテキストプロンプトによる人間-モデル間の相互作用に依存しているが、これらのプロンプトは正確な空間的・時間的参照を提供することが難しく、ユーザ体験の低下を招いている。さらに、現在のアプローチは通常、視覚的知覚と言語的推論を分離し、言語を中心とした推論を視覚的内容よりも優先させており、モデルが能動的に細かい視覚的証拠を知覚する能力を制限している。これらの課題に対処するため、我々はビジュアルプロンプトを用いたインスタンスレベルの動画理解のための新しいパラダイムであるVideoSeekerを提案する。VideoSeekerはエージェント的推論をインスタンスレベルの動画理解タスクとシームレスに統合し、モデルが能動的に必要な動画セグメントを知覚・検索できるようにする。我々は4段階からなる完全自動データ合成パイプラインを構築し、大規模で高品質なインスタンスレベルの動画データを効率的に生成する。コールドスタート教師信号とRL訓練を通じて、ツール呼び出しと能動的な知覚能力をモデルに内在化させ、強力な動画理解モデルを構築する。実験により、本モデルはインスタンスレベルの動画理解タスクにおいてベースラインと比較して平均+13.7%の改善を達成し、GPT-4oやGemini-2.5-Proなどの強力なクローズドソースモデルを凌駕するとともに、一般的な動画理解ベンチマークにおいても効果的な転移可能性を示すことが実証された。関連するデータセットとコードは公開される予定である。

LiteFrame: 効率的な視覚エンコーダがVideo LLMにおけるフレームスケーリングを可能にする
LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs

May 17

ByJihwan Kim, Nikhil Parthasarathy, Danfeng Qin, Junhwa Hur, Deqing Sun, Bohyung Han, Ming-Hsuan Yang, Boqing Gong

長編動画に対応する大規模動画言語モデル（Video LLM）のスケーリングにおける根本的な課題は、ビジュアルトークンのコンテキスト長の爆発的な増加を管理することにある。既存のアプローチの多くは、特徴抽出後にビジュアルトークンを削減し、LLMの計算負荷を軽減する「事後的な」トークン削減に重点を置いている。これらの手法はビジュアルトークンの数を効果的に削減するものの、主要なレイテンシボトルネックがLLMから、視覚エンコーダによる高コストなフレーム単位の処理へと移行するという問題が生じる。この課題に対処するため、我々はVideo LLM向けの強力かつ高効率なビデオエンコーダ基盤であるLiteFrameを提案する。LiteFrameを学習するために、我々は「圧縮トークン蒸留（Compressed Token Distillation、CTD）」という新たな学習フレームワークを導入する。これは、コンパクトな学生視覚エンコーダが、大規模な教師視覚モデルによって生成された情報密度が高く時空間的に圧縮された表現を直接予測するように学習させ、冗長な計算を効果的に回避する手法である。さらに言語モデル適応（LMA）と組み合わせることで、新たなレイテンシと精度のパレート最適フロンティアが実現される。InternVL3-8Bと比較して、LiteFrameは8倍のフレームを処理しながらエンドツーエンドのレイテンシを35%削減し、複数のベンチマークにおいて動画理解の平均精度を向上させる。本結果は、固定された計算リソースの下で、より長尺の動画理解を実現する新たな可能性を示すものである。

推論収束時の停止：推論モデルのための意味保存型早期終了
Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

May 17

ByDehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng

大規模推論モデル（LRM）は、長い思考連鎖（CoT）を生成することで優れた性能を発揮するが、解決策が安定化した後も推論を続ける「過剰思考」に陥ることが多く、その結果トークンを無駄に消費しレイテンシを増大させる。既存の推論時早期終了手法は、主に信頼度や試行回答の一貫性といった回答レベル信号に依存して停止タイミングを決定する。しかし、これらの信号は主に回答準備性を反映するものであり、推論の収束を反映するものではない。そのため、モデルが探索や自己修正を完了する前にトリガーされ、早期終了を引き起こし、最終回答の精度を低下させるとともに、保持された推論連鎖を意味的に不完全なままにする可能性がある。本稿では、推論レベルの意味的冗長性を、意味保存的早期終了のための相補的信号として特定する。連続するステップが新たな進展をもたらさず、確立された結論を再訪するようになった場合、推論軌道は収束した可能性が高い。この知見に基づき、我々はPUMAを提案する。これは、軽量な冗長性検出器と回答レベル検証を組み合わせたプラグアンドプレイフレームワークである。検出器は意味的に冗長な候補終了点をフラグし、検証は停止が安全かどうかを確認する。これにより、PUMAは回答精度と一貫性のある推論プレフィックスを維持しつつ、冗長な継続部分を除去する。5つのLRMと5つの難易度の高い推論ベンチマークにおいて、PUMAは精度と保持されたCoT品質を維持しながら、平均26.2%のトークン削減を達成した。さらに、コード生成、ゼロショット視覚言語推論、学習された停止ポリシーの内面化に関する追加実験により、推論レベルの冗長性が効率的な推論のためのロバストで転送可能かつ学習可能な信号であることが示された。コードはhttps://github.com/giovanni-vaccarino/PUMAで公開している。

オープンな大規模言語モデルにおける最大活性化の計測
Measuring Maximum Activations in Open Large Language Models

May 15

ByLuxuan Chen, Han Tian, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

アクティベーションのダイナミックレンジは、低ビット量子化、アクティベーションスケーリング、および安定したLLM推論における一次制約である。先行研究では、2024年以前のLLaMA型モデルにおける外れ値特徴量や巨大アクティベーションの特性が明らかにされており、後続のアクティベーション量子化スタックもこの知見を継承しているが、ポストLLaMA時代のオープンモデルの隆盛を踏まえた再検討は行われていない。本研究では、導入を目的とした問いを立てる：現代のオープンLLMにおいてアクティベーションはどの程度の大きさになり得るのか、またその規模はファミリー、世代、訓練段階によってどのように異なるのか。統一パイプライン（5000サンプルのマルチドメインコーパス、ファミリー固有のトークン化、埋め込み・隠れ状態・アテンション・MLP/MoE・SwiGLUゲート・最終ノルムにわたる同一フック）を用いて、8つのオープンファミリーから27個のチェックポイント（高密度モデル、MoE、視覚言語モデル、中間訓練モデル、命令チューニングモデルを含む）に対して、全体および層ごとの最大値を測定した。その結果、(i) 同程度のパラメータ数でも全体の最大値はほぼ4桁にわたり、Qwen3.5とMoEチェックポイントでは10²～10³の範囲、Gemma3-27B-itでは約7×10⁵に達すること、(ii) ファミリー間・世代間の比較では単純な単調スケーリングは成立しないこと、(iii) MoEチェックポイントでは同規模の高密度モデルと比較してピーク値が14.0～23.4倍低く、22/24のチェックポイントでは残差ストリームが全体最大値を担うことが明らかとなった。軽量なINT-8 sanity checkにより、測定された最大値はアクティベーションスケールの選択を介して低ビット再構成誤差と共変することが示された。以上より、アクティベーションの最大値の大きさは、サイズの単純な副産物ではなく、ファミリー、アーキテクチャ、訓練段階に結びついたモデル特性であり、低ビット展開の前に、オープンウェイトリリースとともに測定・報告されるべきであると結論づける。コードはhttps://github.com/clx1415926/Max_act_llmで公開されている。

StableVLA: 追加データなしでロバストな視覚言語行動モデルを目指して
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

May 18

ByYiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou

訓練データセットにすべての可能な外乱を含めることは非現実的である。このことは、視覚・言語・行動（VLA）モデルが、未経験の実世界における視覚的外乱、特に不完全な視覚条件下に遭遇した場合のロバスト性に関して、重要な疑問を提起する。本研究では、近年の最先端VLAモデルに基づく体系的な調査を行い、訓練データに含まれていない視覚的外乱が導入された際に、顕著な性能低下が生じることを明らかにする。この問題を緩和するために、情報理論に基づく軽量なアダプタモジュールであるInformation Bottleneck Adapter（IB-Adapter）を提案する。これは視覚入力から潜在的なノイズを選択的にフィルタリングするものである。IB-Adapterは、追加データや拡張戦略を一切必要とせず、パラメータの追加数が10M未満でありながら、ベースラインに対して平均30%の一貫した改善を示し、顕著な効率性と有効性を示す。さらに、14倍小さいバックボーン（0.5Bパラメータ）であり、Open X-Embodimentデータセットでの事前学習を行わなくても、我々のモデルStableVLAは7B規模の最先端VLAと競合するロバスト性を達成する。無視できる程度のパラメータオーバーヘッド（<10M）で、我々のアプローチは長期タスクにおいて精度を維持し、合成および物理的な視覚劣化の両方においてOpenPiを凌駕する。

EndPrompt: ターミナルアンカリングによる効率的な長文脈拡張
EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

May 14

ByHan Tian, Luxuan Chen, Xinran Chen, Rui Kong, Fang Wang, Jiamin Chen, Jinman Zhao, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Haoyi Xiong, Dawei Yin

大規模言語モデルのコンテキストウィンドウを拡張するには、通常、目標長の系列で学習を行う必要があり、二次的なメモリと計算コストが発生するため、長文脈への適応は高コストで再現が困難です。本論文では、短い学習系列のみを用いて効果的なコンテキスト拡張を実現する手法EndPromptを提案します。その核となる洞察は、モデルに長距離の相対位置距離を露出させるために、完全長の入力を構築する必要はないという点です。すなわち、元の短いコンテキストをそのまま第1セグメントとして保持し、第2セグメントとして短い終端プロンプトを追加し、それに目標コンテキスト長付近の位置インデックスを割り当てます。この2セグメント構成により、短い物理系列内で局所的および長距離の相対距離を導入しつつ、学習テキストの意味的連続性を維持します。これは、連続したコンテキストを分割するチャンクベースのシミュレーション手法には欠けている特性です。我々はRotary Position EmbeddingとBernsteinの不等式に基づく理論的分析を提供し、位置補間が注意関数に厳密な平滑性制約を課し、共有されたTransformerパラメータが未観測の中間距離への不安定な外挿をさらに抑制することを示します。LLaMAファミリーのモデルに適用し、コンテキストウィンドウを8Kから64Kに拡張した場合、EndPromptは平均RULERスコア76.03、LongBenchで最高平均を達成し、LCEG（72.24）、LongLoRA（72.95）、完全長ファインチューニング（69.23）を上回りながら、計算量を大幅に削減します。これらの結果は、長文脈への汎化が疎な位置監視から誘導可能であることを示し、信頼性のあるコンテキストウィンドウ拡張には高密度な長系列学習が必要であるという従来の前提に挑戦します。コードはhttps://github.com/clx1415926/EndPromptで入手可能です。

モデル適応型ツール必要性が明らかにするLLMツール使用における知識と行動のギャップ
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13

ByYize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz

大規模言語モデル（LLM）は、自律エージェントとしての役割を果たすことが増えており、直接応答すべきか、外部ツールを呼び出すべきかを判断する必要がある。適応的なツール使用に関する先行研究では、ツールの必要性はモデルに依存しない特性として扱われ、人間やLLMの判定者によってアノテーションされ、主に答えが明白なケース（例：天気情報の取得 vs. テキストの言い換え）を対象としてきた。しかし、実際のツール必要性は、モデル間での能力境界の差異により、より複雑である。すなわち、強力なモデルであれば単体で解決できる問題でも、弱いモデルにとってはツールが必要となる場合がある。本研究では、各モデルの実証的性能に基づいた、モデル適応型のツール必要性定義を導入する。この定義に従い、算術および事実QAデータセットにおいて、4つのモデルのツール呼び出し行動と必要性を比較した結果、それぞれ26.5〜54.0％、30.8〜41.8％という substantial な不一致を発見した。この問題を診断するため、ツール使用を2つの段階に分解する。すなわち、モデルがツールの必要性を認識しているかどうかを反映する「内部認知段階」と、モデルが実際にツール呼び出し行動を起こすかどうかを決定する「実行段階」である。LLMの隠れ状態を調査したところ、両方のシグナルは多くの場合線形分離可能であるが、次のトークン行動を駆動する後層・最終トークンの領域では、その探索方向がほぼ直交していることが判明した。この2段階プロセスにおけるサンプルの軌跡を追跡することで、不一致の大部分が認知から行動への遷移に集中しており、認知そのものにはないことがさらに明らかになった。これらの結果は、LLMのツール使用における「知覚と行動の乖離」を明らかにしている。ツール使用の信頼性を向上させるには、ツールが必要な状況をより適切に認識するだけでなく、その認識を行動へとより適切に変換することも必要である。

AstraFlow: エージェント的LLMのためのデータフロー指向強化学習
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

May 15

ByHaizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

強化学習（RL）は、大規模言語モデルの推論、コーディング、ツール使用能力の向上にますます活用されているが、エージェンティックRLは依然として高コストである。RLをエージェンティックなLLMに拡張するには、マルチポリシー協調学習を含む複雑なワークロードをサポートしつつ、伸縮自在で異種混在、かつリージョン間の計算リソースを効率的に活用する必要がある。既存のLLM向けRLシステムはこれらの機能の一部をサポートしているものの、新たな拡張のたびに専用のシステムエンジニアリングが必要となることが多い。この負担は、トレーナー中心の制御アーキテクチャと、RLシステムコンポーネントに対する原理的な抽象化の欠如に起因する。これらの制約を解決するため、我々はAstraFlowを提案する。これはデータフロー指向のRLシステムであり、従来のトレーナー中心の制御を、原理に基づいたコンポーネントの抽象化に置き換える。AstraFlowでは、ロールアウトサービス、データフロー管理、トレーニングが自律的なコンポーネントに分離され、システムは複雑なマルチポリシーエージェンティックRLワークロードをネイティブにサポートし、多様な計算リソースを効率的に活用できる。我々はAstraFlowを数学、コード、検索、AgentBenchのワークロードで評価し、同一システムでマルチポリシートレーニング、伸縮自在なスケーリング、異種混在リージョン間実行、合成可能なデータアルゴリズムをシステムレベルのコード変更なしに実現できることを示す。マルチポリシー協調学習では、AstraFlowは既存のRLシステムと同等以上の精度を達成しつつ、トレーニング時間を2.7倍高速化する。

拡散は言語モデルのどこに導入すべきか？幾何学に基づく隠れ状態置換
Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

May 14

ByInjin Kong, Hyoungjoon Lee, Yohan Jo

連続拡散言語モデルは自己回帰型トランスフォーマーに劣っているが、その理由の一部は、拡散が言語のノイズ除去やトークン復元に適さない空間で適用されるためである。我々はDiHALを提案する。これは幾何学的誘導による拡散-トランスフォーマーハイブリッドであり、事前学習済みトランスフォーマーにおいて拡散をどこに導入すべきかを問うものである。DiHALは幾何学的な代理指標を用いて層をスコアリングし、拡散に適した隠れ状態インターフェースを選択し、上位層と元のLMヘッドを保持しつつ、トランスフォーマーの下位プレフィックスを拡散ブリッジで置き換える。選択された層の隠れ状態をトークンではなく再構成することにより、DiHALは連続値から離散値への直接的な復元を回避する。8B規模のバックボーンを用いた実験により、幾何学的スコアが固定のブリッジ学習プロトコル下で効果的な浅い挿入層を予測すること、また隠れ状態の復元が、拡散/復元の学習予算を一致させた診断的比較において連続拡散ベースラインよりも改善されることが示された。これらの結果は、隠れ状態の幾何学的性質が、事前学習済み言語モデル内部において拡散ベースの置き換えが可能な位置を特定するのに役立つことを示唆している。

対照対探索による標的ニューロン変調
Targeted Neuron Modulation via Contrastive Pair Search

May 12

BySam Herring, Jake Naviasky, Karan Malhotra

言語モデルは有害なリクエストを拒否するように指示チューニングされているが、その動作の根底にあるメカニズムは未だ十分に理解されていない。一般的な操作手法は残差ストリームに作用し、介入強度が高いと出力の一貫性を損なうため、実用性に制限がある。本稿では、対照的神経属性分析（CNA）を導入する。これは、有害なプロンプトと無害なプロンプトを最も明確に区別するMLPニューロンの活性化を持つ0.1%のニューロンを識別する手法であり、勾配計算や補助的な学習を必要とせず、順伝播のみで動作する。指示チューニングされたモデルにおいて、発見された回路を除去することで、標準的なジェイルブレイクベンチマークにおける拒否率が50%以上低下すると同時に、すべての介入強度において流暢性と非退化性が維持される。CNAをLlamaおよびQwenアーキテクチャ（1Bから72Bパラメータ）の対応するベースモデルと指示チューニングモデルに適用した結果、ベースモデルにも同様の後半層における識別構造が存在するものの、これらのニューロンを操作してもコンテンツの変化のみが生じ、行動の変化は生じないことが判明した。これらの結果は、ニューロンレベルでの介入により、残差ストリーム手法のような品質のトレードオフなしに信頼性の高い行動操作が可能であることを示している。さらに広く見れば、我々の知見は、アライメントのファインチューニングが既存の識別構造を疎で標的可能な拒否ゲートへと変換することを示唆している。

CompactAttention: ブロックユニオンKV選択によるチャンク化プリフィルの高速化
CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

May 16

ByJiwon Song, Dongwon Jo, Beomseok Kang, Jae-Joon Kim

チャンク化プリフィルは、長コンテキスト大規模言語モデルにおいて広く採用されるサービング戦略となっているが、この領域での効率的なアテンション計算は依然として困難である。既存のスパースアテンション手法は主にワンショットプリフィル向けに設計されており、チャンク化プリフィルに効率的に適用できない。ブロックスパースカーネルは、クエリ長がチャンクサイズに制限されると効率が低下し、一方、細粒度パターン検索は、各チャンクで累積されたKVキャッシュに対して繰り返し行われるとコストが高くなる。チャンク化プリフィルを直接対象とした最近の手法であるQUOKAは、スパースカーネルのオーバーヘッドを回避するが、クエリサブサンプリングによるトークンレベルのKV選択に依存しており、その結果、クエリ固有のKVエントリを見逃したり、明示的なKVコピーのオーバーヘッドが生じる可能性がある。これらの制限に対処するため、我々はブロックユニオンKV選択に基づくチャンク化プリフィルアテンション機構であるCompactAttentionを提案する。CompactAttentionは、2次元ブロックスパースマスクを直接的なスパースカーネル実行計画ではなくKV選択信号として扱い、Qブロックユニオンとグループ内ユニオンを通じて、それらをGQAを考慮したグループごとのKVブロックテーブルに変換する。この構成により、ページング実行制約の下で入力マスクによって選択されたすべてのKVブロックを保持する最小限のブロックテーブルが生成され、選択されたKVブロックを明示的なKVコンパクションなしにその場でアクセスできるようになる。LLaMA-3.1-8B-Instructにおいて、CompactAttentionはRULERベンチマークで密なアテンションに近い精度を維持しつつ、チャンク化プリフィル下の128Kコンテキスト長において最大2.72倍のアテンション高速化を実現する。

実行可能から出荷可能へ：要件からフルスタックWebアプリケーションを生成するためのマルチエージェントテスト駆動開発
From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

May 17

ByYuxuan Wan, Tingshuo Liang, Jiakai Xu, Jingyu Xiao, Yintong Huo, Michael R Lyu

コーディングエージェントは自然言語による記述からウェブアプリケーションを生成できるものの、最近のベンチマーク研究によれば、生成されたアプリケーションは70%以上のケースで機能要件を満たさないことが示されている。その核心的な難しさは、ソースファイルやターミナル出力からウェブの正しさを評価できない点にある。すなわち、アプリケーションをデプロイし、シミュレートされたブラウザ操作を通じてテストし、障害を実行可能な修復シグナルに変換する必要があるが、現在のエージェントは人間の介在なしにこれらのステップを実行できない。我々は、このクローズドループを自動化するフレームワークTDDevを提案する。TDDevは3つの段階から成る。(1) コードが書かれる前に高レベルの要件を構造化された受入テストに変換する。(2) アプリケーションをデプロイし、ブラウザベースの操作シミュレーションを通じて検証する。(3) ブラウザで観測された障害をコーディングエージェントのための構造化された修復レポートに変換する。TDDevにより、初めての制御された実証研究として、ウェブアプリケーション生成におけるテスト駆動開発（TDD）戦略を、2つのコーディングエージェント、2つのバックボーンモデル、2つのベンチマークにわたって4つの開発プロトコルを比較することで調査する。TDD基盤は、TDDなしのベースラインと比較して生成品質を一貫して34〜48パーセントポイント向上させる。主要な発見は、最適なプロトコルがモデルの生成スタイルに依存するという点である。アプリケーションを全体的に構築するモデルは、エージェントベースの強制適用から最も恩恵を受け、一方、コードを慎重に拡張するモデルは、段階的な強制適用から恩恵を受ける。生成スタイルにプロトコルが適合しない場合、TDDの利点は完全に失われ、トークンコストは最大25倍に増加する。ユーザー実験により、TDDevは手動による開発者の介入をゼロにし、継続的なプロンプトエンジニアリングから自律的なフィードバック駆動型の改良へと作業負荷を移行することを確認した。

NGM: LLM向けプラグアンドプレイ訓練不要メモリモジュール
NGM: A Plug-and-Play Training-Free Memory Module for LLMs

May 16

ByYuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan

近年の研究では、知識の保存と神経計算を分離し、より直接的な知識アクセスを可能にする条件付きメモリモジュールが導入されています。動的な計算経路に依存するMoEと比較して、明示的なルックアップはより効率的な知識検索メカニズムを提供します。しかし、これらの手法は依然として学習されたメモリ埋め込みに依存しており、追加の訓練が必要で柔軟性が制限されます。この問題に対処するために、我々は訓練不要のプラグアンドプレイモジュールであるNグラムメモリ（NGM）を提案します。これは因果Nグラムエンコーダとコサインゲートメモリインジェクタから構成されます。因果Nグラムエンコーダは、バックボーンモデルの事前学習済みトークン埋め込みを直接平均することでNグラム表現を構築し、別個のNグラム埋め込みをゼロから訓練する必要性を排除します。この設計は追加のメモリテーブルも検索パイプラインも必要としません。そしてコサインゲートメモリインジェクタは、ノンパラメトリックなコサインゲートとReLUを用いて、検索された埋め込みを文脈表現に調整します。我々はNGMを0.6Bから14BまでのQwen3シリーズで8つのベンチマークにわたって評価しました。NGMは平均性能を0.5～1.2ポイント向上させ、特にコード生成や知識集約型タスク（例えばQwen3-14BではLiveCodeBenchで+3.0、GPQAで+3.03）で明確な改善が見られました。さらに、NGMはマルチモーダルベンチマーク（例えばQwen3-VL-2BではMMStarで+1.53）でも性能を向上させます。

WavFlow: 波形空間における音声生成
WavFlow: Audio Generation in Waveform Space

May 18

ByFeiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

現代の音声生成は主に潜在空間圧縮に依存しており、その結果、追加の複雑さや潜在的な情報損失が生じている。本研究では、この常識に挑戦するWavFlowフレームワークを提案する。これは、中間表現を介さず、生波形空間で直接高忠実度な音声を生成する。高次元かつ低エネルギー信号のモデリングに内在する困難を克服するため、波形パッチ化を通じてオーディオを2次元トークングリッドに再形成し、信号スケールを整合させる振幅リフティングを導入することで、フローマッチングにおける直接的なx予測による安定した最適化を実現する。複雑な意味的整合性と時間的同期を捉えるため、自動データパイプラインを活用して500万件の高品質な映像・テキスト・音声の三つ組データを収集し、モデルがゼロから細粒度の音響パターンを学習できるようにした。実験結果は、WavFlowが映像から音声へのベンチマークVGGSound（FD_PaSST: 59.98、IS_PANNs: 17.40、DeSync: 0.44）およびテキストから音声へのベンチマークAudioCaps（FD_PANNs: 10.63、IS_PANNs: 12.62）において、既存の潜在ベース手法に匹敵またはそれを上回る性能を達成することを示している。本研究は、中間圧縮が高品質合成の前提条件ではないことを実証し、マルチモーダル音声生成に対するよりシンプルでスケーラブルな代替手段を提供する。

TOBench: 実世界のツール使用エージェントのためのタスク指向型オムニモーダルベンチマーク
TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

May 16

ByZhiqiang Liu, Wenhui Dong, Yilang Tan, Yuwen Qu, Haochen Yin, Chenyang Si

ツール使用エージェントは、現実的な専門的ワークフローでの運用がますます期待されるようになっており、その際、マルチモーダル入力を解釈し、外部ツールを調整し、中間成果物を検査し、最終結果を生成する前に行動を修正する必要がある。しかし、既存のベンチマークは、ツール使用、コンピュータ使用、マルチモーダル推論を個別に評価することが多く、ベンチマーク設定と現実世界でのエンドツーエンドの全モーダルツール使用との間にギャップが存在する。このギャップを埋めるため、我々はタスク指向型全モーダルツール使用のためのベンチマークおよび評価フレームワークであるMM-ToolBenchを導入する。MM-ToolBenchは、カスタマーサービスとインテリジェントクリエーションという2つのマクロタスクファミリーから100の実行可能タスクを含み、20のサブカテゴリにわたっており、27のMCPサーバー（324ツール）によってサポートされている。MM-ToolBenchの中核設計はクローズドループマルチモーダル検証である。エージェントはツールを実行し、レンダリングまたは変換された成果物を検査し、出力がタスク固有の要件を満たさない場合に自己修正を行わなければならない。このような評価をスケーラブルかつ検証可能にするため、MM-ToolBenchはMCPベースの実行と、タスク固有の根拠付き評価器、およびシナリオ発見、タスクインスタンス化、評価器合成、人間による監査のための半自動構築パイプラインを組み合わせている。15の最新エージェントモデルを用いた実験では、MM-ToolBenchが依然として非常に困難であることが示された。一般的に最強のコーディングエージェントモデルの一つとされるClaude Opus 4.6でも、タスク成功率はわずか32.0%であり、人間ベンチマークの94.0%を大きく下回っている。我々はMM-ToolBenchが、クローズドループマルチモーダル検証を通じて次世代の全モーダルツール使用エージェントを評価・進展させるための実用的基盤となることを想定している。

AtlasVA: 自己進化型視覚スキルメモリを備えた教師不要のVLMエージェント
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

May 18

ByPan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen

視覚言語モデル（VLM）エージェントは、長期的タスクにわたって経験を再利用するために記憶強化型強化学習に依存する傾向が強まっているが、既存のフレームワークのほとんどは記憶をテキストとして保存し、それを要約または洗練するためにプロプライエタリな教師モデルに依存している。この設計は空間的決定に適合しておらず、幾何学的な事前知識は損失のある言語に圧縮され、疎な相互作用はしばしば密な視覚的根拠のある信号ではなく遅延したテキストフィードバックを通じて監督されている。我々は、VLMエージェントの再利用可能な経験は視覚的に根拠づけられたままであるべきだと主張する。この洞察に基づき、我々は教師なしの視覚スキル記憶フレームワークであるAtlasVAを提案する。これは記憶を空間ヒートマップ、視覚的例示、シンボリックテキストスキルの3つの補完的な層に整理する。AtlasVAはさらに、軌跡統計と軽量なグリッドヒューリスティクスから直接危険マップと親和性マップを進化させ、これらの自己進化マップを強化学習のためのポテンシャルベースのシェイピング報酬として再利用する。これにより、外部のLLMによる監督なしで知覚、記憶、最適化が統一される。Sokoban、FrozenLake、3D具現化ナビゲーション、3Dロボット操作ベンチマークでの実験により、AtlasVAがテキスト中心の記憶ベースラインや競争力のあるVLMエージェントを一貫して上回り、特に空間集約的なタスクで顕著な向上を示している。ホームページ: https://wangpan-ustc.github.io/AtlasvaWeb

MixSD: 混合コンテキスト自己蒸留による知識注入
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

May 16

ByJiarui Liu, Lechen Zhang, Yongjin Yang, Yinghui He, Yingheng Wang, Weihao Xuan, Zhijing Jin, Mona Diab

教師ありファインチューニング（SFT）は、言語モデルに新しい知識を注入するために広く用いられているが、推論や汎用ドメイン性能などの事前学習済みの能力をしばしば低下させる。我々は、この忘却が、人間や外部システムからのファインチューニングターゲットがモデルの自己回帰分布から乖離し、オプティマイザが低確率なトークン系列を模倣せざるを得なくなることに起因すると論じる。この問題に対処するため、我々はMixSDを提案する。これは、分布に整合した知識注入のための、シンプルで外部教師を必要としない手法である。MixSDは固定目標に対する学習を行う代わりに、ベースモデル自身の2つの条件付き分布からトークンを混合することで動的に教師信号を構築する。すなわち、注入された事実をコンテキストで観測する専門家条件付き分布と、モデルの元の事前分布を反映するナイーブ条件付き分布である。得られた教師信号系列は、事実学習信号を保持しつつ、ベースモデルの分布に大幅に近い状態を維持する。我々は、管理された設定で事実想起と算術関数の獲得を研究するために構築した2つの合成コーパス、およびオープンドメイン事実質問応答と知識編集に関する確立されたベンチマークを用いてMixSDを評価する。複数のモデルスケールと設定にわたり、MixSDはSFTやオンポリシーの自己蒸留ベースラインと比較して、一貫してより優れた記憶保持のトレードオフを達成する。ほぼ完全な学習精度を維持しながらベースモデルの保持能力の最大100%を保持するのに対し、標準的なSFTはわずか1%しか保持しない。さらに、MixSDはベースモデル下で大幅に低い負の対数尤度（NLL）の教師信号ターゲットを生成し、フィッシャー情報量に敏感なパラメータ方向への有害な移動を低減することを示す。これらの結果は、教師信号をモデルの本来の生成分布に整合させることが、破滅的忘却を軽減する知識注入のシンプルかつ効果的な原理であることを示唆している。

MementoGUI: 長期GUIエージェントのためのエージェント的マルチモーダルメモリ制御の学習
MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

May 18

ByZiyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

最近のGUIエージェントは、視覚的グラウンディングとアクション予測において大きな進歩を遂げているが、多くのインターフェース遷移をまたいでタスク状態を維持する必要がある長期的タスクでは依然として脆弱である。既存のエージェントは通常、生の履歴再生やテキストのみのメモリに依存しており、これは冗長なスクリーンショットでモデルを圧倒するか、将来の意思決定に必要な局所的な視覚的証拠を破棄することになる。これらの限界に対処するため、我々はMementoGUIを提案する。これはプラグイン型エージェントメモリフレームワークであり、MLLMベースのGUIエージェントに、オンラインメモリの選択、圧縮、検索のための学習されたコントローラであるMementoCoreを組み込む。MementoGUIは、対話履歴を固定されたコンテキストとして扱うのではなく、長期的なGUI制御をオンラインメモリ制御問題として定式化する。ワーキングメモリは、テキスト要約とROIレベルの視覚的証拠を用いてタスク関連のインターフェースイベントを選択的に保持し、エピソード記憶は学習された関連性選択を通じて再利用可能な過去の軌跡を検索する。MementoCoreは、メモリ制御をステップ処理、メモリ圧縮、エピソード書き込み、エピソード選択のための特殊なオペレータにモジュール化し、GUIエージェントのバックボーンをファインチューニングすることなくプラグイン型のメモリ拡張を可能にする。さらに、コンピュータ操作の軌跡をメモリコントローラの学習データに変換するスケーラブルなデータキュレーションパイプラインを開発し、GUIエージェントにおける長期的な意思決定を評価するためのMementoGUI-Benchを導入し、意味的アクションマッチング、タスク進捗、メモリ一貫性のためのMLLMベースの評価指標を設計する。GUI-Odyssey、MM-Mind2Web、MementoGUI-Benchでの実験により、MementoGUIは履歴なし、履歴再生、テキストのみのメモリベースラインと比較して一貫してGUIエージェントを改善し、より大規模なMementoCoreバックボーンがメモリ拡張GUI制御をさらに強化することが示された。

FINESSE-Bench：大規模言語モデルにおける金融ドメイン知識とテクニカル分析のための階層的ベンチマークスイート
FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

May 14

ByDmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

大規模言語モデル（LLM）は、金融分析、報告、投資判断支援、リスク管理、コンプライアンス、専門家トレーニングなどにますます応用されている。しかし、金融におけるドメイン能力の頑健な評価は依然として不完全である。FinQA、ConvFinQA、TAT-QAなどの広く使われているオープンベンチマークは、金融質問応答と数値推論の進展に重要な役割を果たしてきたが、これらは主に財務報告書に対する質問応答に焦点を当てており、専門的な難易度の明確な階層を提供していない。FinanceBench、PIXIU、FinBen、FLaMEなどのより広範なリソースは、金融タスクのカバレッジを拡大しているが、基礎知識からエキスパートレベルの金融推論への移行を評価する問題は依然として未解決である。本研究では、LLMにおける金融能力の階層的評価のための3,993問からなる8つの専門ベンチマーク群であるFINESSE-Benchを紹介する。FINESSE-Benchは、専門資格（CFA類似のレベル1～3、CMT類似のレベル2、CFTe類似のレベル1）に着想を得た試験指向データセット、応用トレーディングタスクコレクション、ロシア語のオリンピアードベンチマークを組み合わせている。この設計により、ドメインの広がり、難易度上昇に伴う性能低下、計算タスクを解く能力、専門金融領域におけるモデルの挙動を評価することが可能になる。また、選択問題、数値解答、短い自由記述回答をカバーする統一評価プロトコルと、LLM-as-judgeパラダイムに基づく自由形式回答の自動スコアリング方式についても説明する。FINESSE-Benchは、既存のオープンな金融ベンチマークに対する補完として、また大規模言語モデルにおける専門的に関連する金融能力のより実質的な評価のためのツールとして意図されている。

エージェントバザール：マルチエージェント市場における経済的整合性の実現
Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces

May 17

BySeth Karten, Cameron Crow, Chi Jin

大規模言語モデル（LLM）を自律型経済エージェントとして展開することは、個々の能力の限界を超えたシステム的リスクをもたらす。エージェントが市場と直接相互作用するようになるにつれ、その集団行動は変動性を増幅し、大規模な欺瞞を覆い隠す可能性がある。我々は、エージェントシステムが市場の安定性と完全性を維持する能力である経済的アライメント（Economic Alignment）を評価するためのマルチエージェントシミュレーションフレームワーク、Agent Bazaar を提案する。二つの失敗モードを特定する：(1) B2C市場におけるアルゴリズム的不安定性（「クラッシュ」）—企業が価格変動性を増幅し市場が崩壊するまでに至る、(2) C2C市場におけるシビル欺瞞（「レモン市場」）—単一の欺瞞的エージェントが複数の統制された売り手のアイデンティティを操作し、不正出品で市場を氾濫させ、信頼と消費者福祉を損なう。我々は、両方のシナリオにおいて最先端およびオープンウェイトモデルを評価し、モデルが自己規制にほぼ失敗することを発見した。その失敗の深刻度は、モデルのサイズではなく、モデルごとに異なる。我々は、経済的にアライメントされたハーネスとして、安定化企業（Stabilizing Firms）と懐疑的ガーディアン（Skeptical Guardians）を提案する。これらは結果を改善するものの、より困難な市場条件下では脆弱なままである。このギャップを埋めるため、我々は適応的カリキュラムを用いたREINFORCE++によってエージェントを訓練し、評価されたすべての最先端およびオープンウェイトモデルを凌駕する9Bモデルを生み出した。さらに、安定性、完全性、福祉、収益性を集約した4成分からなるスカラー指標である経済的アライメントスコア（EAS: Economic Alignment Score）を提案し、モデル間の直接比較を可能にする。我々の結果は、経済的アライメントは一般能力と直交しており、標的型強化学習によって直接訓練可能であることを示している。

DexHoldem: 器用な身体化システムによるテキサスホールデムのプレイ
DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

May 18

ByFeng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

実際の巧緻なハードウェア上で身体化システムを評価するには、孤立したプリミティブスキル以上のものが必要である。エージェントは変化するテーブルトップのシーンを知覚し、文脈に適した行動を選択し、巧緻なハンドでそれを実行し、後の判断のためにシーンを使用可能な状態に保たなければならない。我々は、ShadowHandを用いたテキサスホールデムの巧緻操作に基づく実世界のシステムレベルのベンチマーク、DexHoldemを紹介する。DexHoldemは、14のテキサスホールデム操作プリミティブにわたる1,470件の遠隔操作デモンストレーション、標準化された物理的ポリシーベンチマーク、およびエージェントが身体化された意思決定に必要な構造化されたゲーム状態を復元できるかどうかをテストするエージェンティック知覚ベンチマークを提供する。プリミティブ実行において、π_{0.5}は最高のタスク完了率（61.2%）を達成し、π_{0.5}とπ_0はシーン保存成功率（47.5%）で同率となる。エージェンティック知覚において、Opus 4.7は最も優れた厳密な問題レベル精度（34.3%）を達成し、GPT 5.5は最も優れた平均フィールド別精度（66.8%）を達成し、孤立した視覚サブ能力と完全なルーティング関連状態復元との間のギャップを明らかにする。最後に、我々は完全な身体化エージェントループを3つのケーススタディで具体化し、待機、リカバリディスパッチ、人間による支援要求、および反復的なプリミティブ実行が、クローズドループ展開中に知覚とポリシーのエラーがどのように蓄積されるかを明らかにする。したがって、DexHoldemは、共通の物理的設定において、巧緻なテーブルトップ実行、エージェンティック知覚、および身体化された意思決定ルーティングを評価する。プロジェクトページ：https://dexholdem.github.io/Dexholdem/。

呪文: マルチエンティティ動画世界モデルにおける行動インターフェースとしての自然言語
Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models

May 18

ByShangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng

近年のインタラクティブビデオ世界モデルは印象的な視覚的忠実度を達成しているが、きめ細かなマルチエンティティ制御や、エンティティ間・世界間の汎化が欠けている。我々はこのギャップを動作インタフェースに起因するものと捉える。すなわち、標準的な制御プロトコル（アニメーションID、デバイス入力、シーンレベルのキャプションなど）は、設計時に動作意味論を特定のエンティティやエンジンに束縛する。本稿では、従来のいかなるインタフェースも達成し得ない表現力を解放する手段として自然言語を提案し、潜在フレーム単位（0.25秒）で自然言語による条件付けを行い、同時マルチエンティティ制御と、固定レンダリングパイプラインを超えた概念レベルのエンティティ間転送をサポートする、初のインタラクティブビデオ世界モデルIncantationを提示する。我々は、事前学習済み双方向ビデオバックボーンとフレームローカルテキストクロスアテンションを組み合わせ、ODE初期化自己強制蒸留法とRoPE分離型スライディングKVキャッシュにより、リアルタイムの長時間ストリーミングを実現する。エンティティ間転送（89%対43%）および語彙外プロンプト（90%対0%）において、Action-Indexベースラインを上回り、2ステップの学生モデルは480pで19.7FPSを維持し、2時間のロールアウトで安定したFVDを示す。さらに、同一のアーキテクチャと訓練レシピを『ザ・キング・オブ・ファイターズ』に適用し、エンティティごとの動作語彙スロットのみを変更した。Incantationデータセットのプレビューサブセットをhttps://huggingface.co/datasets/zhush/incantation-elden-ring-scenes で公開しており、手動収集した『エルデンリング』のプレイヤー対ボス戦闘クリップと構造化された動作指向メタデータを含む。より大規模な『エルデンリング』およびKOFデータは、プロジェクト全体とともに公開予定である。

対話型AIエージェントにおける認知年齢整合性の評価
Evaluating Cognitive Age Alignment in Interactive AI Agents

May 18

ByYifan Shen, Jiawen Zhang, Jian Xu, Junho Kim, Ismini Lourentzou, Xu Cao, Meihuan Huang

エージェンティックAIおよびその中核をなすマルチモーダル大規模言語モデル（MLLM）は、日常生活から先端科学研究に至るまで、言語および視覚推論において顕著な可能性を示してきた。しかしながら、人工知能と人間の知能の間には依然として大きな隔たりが存在する。強力なツールや高度なMLLMが統合されているにもかかわらず、最先端のAIエージェントは、子どもであれば容易に解決できる基礎的で一見単純なタスクにおいて頻繁に失敗する。本研究では、ウェクスラー式児童知能検査（WISC）に着想を得て、MLLMベースのエージェントにおける認知年齢の一致度を評価するための、初の心理測定学的に基づいた対話型ベンチマークであるChildAgentEvalを提案する。ChildAgentEvalは、様々なMLLMベースの対話型エージェントの推論性能を、年齢別の人間の発達段階と体系的に比較し、現在のエージェンティックAIシステムがどこで年齢特異的な認知行動を模倣でき、どこで模倣できないかを明らかにする。

行動可能な世界表現
Actionable World Representation

May 18

ByKunqi Xu, Jitao Li, Jianglong Ye, Tianshu Tang, Isabella Liu, Sifei Liu, Xueyan Zou

大規模言語モデルにおける人間の知能を一般化した創発的行動に触発され、研究コミュニティは物理世界のモデリングに重点を置いた世界モデル内で同様の創発的能力を追求している。物理世界モデルの範囲において、オブジェクトは物理的現実を構成する基本的なプリミティブである。人間からコンピュータに至るまで、私たちが相互作用するほとんどすべてのものはオブジェクトである。これらのオブジェクトが静的であることは稀であり、それらは内在的特性によって決定される様々な状態を持つ操作可能なエンティティである。現在の手法は、ビデオ生成または動的なシーン再構成のいずれかを介してオブジェクトの動作状態にアプローチしているが、操作可能なオブジェクト表現を構築するために、この基本要素を統一的かつ原理的な方法で明示的にモデル化するものは存在しない。我々はWorldStringを提案する。これは、点群またはRGB-Dビデオストリームから直接学習することにより、実世界のオブジェクトの状態多様体をモデル化できるニューラルアーキテクチャである。多用途のデジタルツインとして機能し、物理世界モデルの基礎的構成要素となることから、これをWorldStringと命名した。特筆すべきは、その完全微分可能な構造により、将来のポリシー学習やニューラルダイナミクスとの統合がシームレスに可能となる点である。

SafeDiffusion-R1: 安全な拡散モデルの事後学習のためのオンライン報酬誘導
SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

May 18

ByKomal Kumar, Ankan Deria, Abhishek Basu, Fahad Shamshad, Hisham Cholakkal, Karthik Nandakumar

拡散モデルは、事前学習中に獲得された不適切なコンテンツを除去するために広く研究されてきた。既存手法では、安全性のないテキストと安全な画像の正解ペア、あるいは否定的/肯定的な画像ペアといった高コストな教師ありデータが必要であり、スケーラビリティに欠ける。さらに、オフライン強化学習やオフラインで合成データを生成する教師ありファインチューニング手法では、破滅的忘却が生じ、生成品質が低下する。本稿では、グループ相対的政策最適化（GRPO）を用いて、否定的および肯定的なテキストプロンプトの両方に対してポストトレーニングを行う、新たなオンライン強化学習フレームワークを提案する。専門的な安全/不安全報酬モデルのファインチューニングを不要にするため、CLIP埋め込みの固有の特性を活用したステアリング報酬メカニズムを導入する。すなわち、埋め込み空間においてテキスト表現を肯定的な安全方向に引き寄せ、否定的な方向から遠ざける。本提案のオンラインポリシーアプローチにより、明示的に不適切な内容を含む多様なプロンプトから学習しつつ、破滅的忘却を回避できる。大規模な実験により、本手法は不適切コンテンツを18.07%（SD v1.4では48.9%）に削減し、ヌード検出数を15件（ベースライン646件）に低減すると同時に、GenEvalにおける構成的生成品質を42.08%から47.83%に向上させる。特筆すべきは、これらの安全性の向上が7つの有害カテゴリにわたるドメイン外の不適切プロンプトにも一般化され、教師ありペアデータや報酬チューニングを必要とせずに最先端性能を達成する点である。GitHub: https://github.com/MAXNORM8650/SafeDiffusion-R1

A2RBench: 形式的に検証可能な抽象的推論ベンチマーク生成のための自動パラダイム
A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation

May 17

ByQingchuan Ma, Yuexiao Ma, Yongkang Xie, Tianyu Xie, Xiawu Zheng, Rongrong Ji

抽象推理能力は、LLMが抽象的なルールを抽出・適用するための知能と汎化能力を反映する。しかし、この能力を正確に測定することは依然として困難である。既存のベンチマークは、高コストな手動アノテーションに依存して規模が制限されるか、あるいは真の推論ではなく記憶を測定するリスクを伴う。この課題に対処するため、我々はA2RBenchと名付けた自動化パイプラインを導入する。これは生成、拡張、評価、分析の各段階を含む。具体的には、生成段階ではLLMが真の推論を必要とする多様なタスクを作成し、拡張段階ではLLMが検証済みのルールを再利用し、新たな入力空間を拡張することでタスクのバリエーションを生成し、スケーリングを実現する。しかし、このようなプロセスは幻覚を引き起こす可能性がある。これを排除するため、我々はさらに理論的枠組みを構築し、プログラムによる検証（逆操作が順操作を完全に反転するかどうかをテストすること、すなわちサイクル一貫性）が一意の解を保証することを証明する。主流のLLMに対する広範な評価を通じて、以下の知見を得た。（1）現在のLLMは抽象推理に根本的な欠陥を示し、代表的なサブセットにおいてトップモデルでも人間を大幅に下回る（39.8％対68.5％）。（2）現在のLLMは、生成された3Dタスクの複雑さにおいて2Dや1Dに遠く及ばず、高次元タスクの理解不足が明らかになった。（3）直観に反して、情報複雑性の高い入力が推論プロセスを単純化できる。

OSCAR: オフライン・スペクトル共分散を考慮した回転による2ビットKVキャッシュ量子化
OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization

May 18

ByZhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

INT2 KVキャッシュ量子化は、長文脈LLMサービングにおいて魅力的な手法であるが、高精度かつデプロイ可能な状態を両立することは依然として困難である。アダマール変換のような単純な回転は外れ値を低減するが、下流のアテンションと整合しないため、INT2では依然として性能が低下する。我々はOSCARを提案する。これは、オフラインで注意認識共分散構造を推定し、それらを用いて量子化のための固定回転とクリッピング閾値を導出する超低ビットKVキャッシュ量子化手法である。これにより、KV量子化をアテンションが実際に消費する共分散構造と整合させる。さらに重要な点として、我々は理論的正当性を提供するだけでなく、ページング方式KVキャッシュサービングや融合カーネルパイプラインと互換性を持つカスタムINT2アテンションカーネルを備えた、完全にデプロイ可能なOSCARシステムを開発し、SGLangやvLLMなどの現代的なLLMサービングフレームワークへのシームレスな統合を可能にした。本手法を、最大32kトークンの推論トレースを持つ最近の推論モデルにおいて5つのタスクで評価した。Qwen3-4B-Thinking-2507およびQwen3-8Bにおいて、OSCARはBF16との精度差をそれぞれ3.78ポイントおよび1.42ポイントに削減した。一方、単純な回転によるINT2はほぼゼロにまで性能が低下した。さらにOSCARをQwen3-32BおよびGLM-4.7（358Bパラメータ）に拡張したところ、BF16と実質的に同等の性能を維持した。最大128Kの長文脈RULER-NIAHにおいても、OSCARは両方のQwen3モデルで頑健性を示したが、単純な回転によるINT2は性能が崩壊した。システム面では、OSCARはKVキャッシュメモリを約8倍削減し、同一メモリ予算下での大バッチサイズにおいてスループットを最大7倍向上させ、バッチサイズ1のデコード速度はメモリ帯域幅オーバーヘッドの低減によりBF16比で最大3倍高速化した。

AgentKernelArena: 汎化を考慮したGPUカーネル最適化エージェントのベンチマーキング
AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

May 16

BySharareh Younesian, Wenwen Ouyang, Sina Rafati, Mehdi Rezagholizadeh, Sharon Zhou, Ji Liu, Yue Liu, Yuchen Yang, Hao Li, Ziqiong Liu, Dong Li, Vikram Appia, Zhenyu Gu, Emad Barsoum

GPUカーネルの最適化は、効率的なディープラーニングシステムにとってますます重要になっているが、高性能カーネルを記述するには依然として高度な低レベルの専門知識が必要である。近年のAIコーディングエージェントは、コードを反復的に読み込み、コンパイラやプロファイラを呼び出し、実装を洗練させることができるが、既存のカーネルベンチマークは完全なエージェントワークフローではなく単一のLLM呼び出しを評価しており、カーネル間最適化と未観測構成の汎化テストの両方を含むものはない。本稿では、GPUカーネル最適化におけるAIコーディングエージェントを測定するためのオープンソースベンチマークAgentKernelArenaを提案する。このベンチマークは、HIPからHIPへの最適化、TritonからTritonへの最適化、PyTorchからHIPへの翻訳にわたる196のタスクを含み、ゲート付きコンパイル、正しさ、パフォーマンスチェックを使用した分離ワークスペースでの完全なエージェントワークフロー、集中スコアリング、および最適化がエージェントが一度も観測したことのない入力構成に転送されるかどうかをテストする未観測構成汎化プロトコルを評価する。Cursor Agent、Claude Code、Codex Agentなどのプロダクションエージェントにおいて、ほとんどのタスクカテゴリでほぼ完全なコンパイルと高い正しさの割合が見られ、最も強力な構成はPyTorchからHIPへのタスクで平均6.89倍、HIPからHIPへのタスクで6.69倍、TritonからTritonへのタスクで2.13倍のスピードアップを達成した。未観測構成の評価では、HIPからHIPおよびTritonからTritonの最適化は未観測の入力形状に概ね転送される一方、PyTorchからHIPでは正しさが大幅に低下し、エージェントがゼロからカーネルを生成する際に形状固有の仮定をハードコードすることが多いことを示している。AgentKernelArenaは、エージェント、タスク、ハードウェアターゲットにわたるエージェント型GPUカーネル最適化の厳密な評価のためのモジュール式で拡張可能なフレームワークとして設計されている。

SNLP: 構造化ニュートン補正による層並列推論
SNLP: Layer-Parallel Inference via Structured Newton Corrections

May 18

ByLigong Han, Kai Xu, Hao Wang, Akash Srivastava

自己回帰型言語モデルはTransformer層を逐次的に実行するため、従来のテンソル並列性やパイプラインペラリズムでは除去できないレイテンシボトルネックが生じる。本研究では、層間の依存関係を、層を跨ぐ隠れ状態のトレースを非線形残差方程式の解と見なして並列ニュートン型更新で解くことで緩和できるかどうかを検討する。この視点は原理的に妥当であるが、厳密なニュートン補正には高コストなヤコビアン-ベクトル積が必要であり、また単純な不動点反復は学習済みTransformerでは不安定である。そこで、厳密な層ヤコビアンを、アーキテクチャから生じる安価な代理ダイナミクスに置き換える訓練・推論フレームワーク、構造化ニュートン層並列性（SNLP）を導入する。残差型Transformerでは、補正がプレフィックス和型更新に帰着するIdentity Newton（IDN）が得られる。mHC型アーキテクチャでは、モデルの残差混合行列を利用したHC Newton（HCN）が得られる。さらに、1回または少数の構造化ニュートン反復で逐次的な順伝搬を正確に近似できるようモデルを訓練するSNLP対応正則化を導入する。Nanochat規模のTransformer実験では、SNLP正則化により層並列互換性が向上し、標準的な逐次的パープレキシティも改善され、ベースラインPPLを4.7%～23.4%削減した。推論時には、SNLPと層融合およびチャンク単位分解を組み合わせることで実時間高速化を達成し、0.5B Nanochatモデルでは2.3倍の高速化と同時にPPLを6.1%改善した。これらの結果は、層並列推論が単なる逐次実行の数値近似ではなく、ソルバー起因の有用な推論バイアスとして機能し得ることを示唆している。また、市販の事前学習モデルは本手法の適用が容易でないこと、厳密な収束は逐次計算を回復するものであり単調な推論時スケーリングを提供しないことといった限界も明らかにする。

幾何学的相転移が海馬の極めて高い記憶容量を可能にする
Geometric Phase Transition Enables Extreme Hippocampal Memory Capacity

May 16

ByPrashant C. Raju

記憶システムは、類似したハードウェアの制約にもかかわらず、格納できる情報量が大きく異なることがある。本研究では、優れた空間記憶が海馬神経集団の幾何学形状の離散的な硬化、すなわち無秩序な集団的符号化から結晶的な集団的符号化への転換から生じることを示す。食料貯蔵を行うシジュウカラと貯蔵を行わないキンカチョウを比較したところ、貯蔵を行う海馬は位相的に剛直な「結晶状」の幾何学構造を維持し、幾何学的安定性が有意に高く（Shesha 0.245対0.166）、時間的コヒーレンスがほぼ2倍（Shesha 0.393対0.209）であったのに対し、貯蔵を行わない海馬は無秩序な「霧」に類似していた。この安定性は、相乗的な回路ダイナミクスによって能動的に構築される。すなわち、興奮性ニューロンが空間的足場を形成し、抑制性集団が直交的脱相関に寄与する。これは、興奮性集団と抑制性集団がほぼ重複しない表現部分空間を占める回路モチーフである。ValiantのStable Memory Allocator（各記憶に専用のニューロン集団が関与すると予測するモデル）との二重乖離により、この優位性が離散的なニューロン割り当てではなく連続的なトポロジー組織化を反映することが確認される。貯蔵を行うネットワークは、幾何学的優位性にもかかわらず、分割半分の割り当て信頼性がほぼゼロを示す。1万の設定にわたる計算モデリングにより、位相的剛性が規模の数学的前提条件であることが明らかになる。結晶コードはM=1000箇所を超えても高忠実度の読み出しを維持するのに対し、霧コードはM=10未満で失敗し、100倍以上の容量優位性を示す。この容量には169倍の表現冗長性が必要であり、これは多様体を生物学的ノイズに対して安定化する「幾何学的税」である。これらの結果は、幾何学的安定性を生物学的記憶の候補となる組織化原理として確立する。すなわち、進化はニューロンを増殖させるのではなく、神経コード自体の幾何学を設計することによって高容量記憶を実現する。

対称性整合原理に基づくオプティマイザ設計：埋め込み、LMヘッド、SwiGLU MLP、MoEルーター
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

May 18

ByTim Tsz-Kit Lau, Weijie Su

深層学習の実践において、顕著な幾何学的不一致が長らく存在してきた。現代のニューラルネットワークアーキテクチャは豊かな対称性と等変性を自然に示す一方、Adamおよびそのバリアントのような一般的な最適化器は本質的に座標ごとに動作するため、パラメータ空間の等変性構造を尊重することができない。本論文では、この不一致に対処するため、対称性と互換性のある最適化器設計の原理、すなわち勾配更新則が対応する重みブロックに作用する対称群の下で等変でなければならないという原理を導入する。この原理に従い、まず、確率的スペクトル降下法、Muon、Scion、および極勾配法で用いられる、一般の行列層に対する双直交等変更新の統一的な視点を提供する。さらに重要なことに、直交群から置換対称性および共有シフト対称性へと移行することで、一般の行列層とは異なる対称性を持つパラメータブロック（埋め込み行列およびLMヘッド行列、SwiGLU MLP射影、MoEルーター行列）に対する対称性互換最適化器を導出する。これらの構成には、片側スペクトル更新、行ノルム更新、ハイブリッド行ノルム/スペクトル更新、行認識更新、列認識更新、中心化行ノルム更新、および左スペクトル更新が含まれる。これにより、主要な行列値パラメータクラスのそれぞれに、その対称群と等変性が一致する更新を割り当てた、エンドツーエンドの層ごとの最適化器スタックが得られる。本原理は、Qwen3-0.6Bスタイル、Gemma 3 1Bスタイル、OLMoE-1B-7Bスタイル、および小型化されたgpt-ossアーキテクチャを含む、密および疎MoE言語モデルに関する事前学習実験によって裏付けられる。これらの実験において、対称性互換更新は、対応するAdamW更新と比較して、最終的な検証損失を一貫して改善し、複数のケースでは訓練安定性も向上させた。

E-PMQ: 専門家誘導によるマージ後量子化とマージ重みアンカリング
E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring

May 16

ByWenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang

低リソース環境での展開制約により、ニューラルネットワークの性能を維持しつつ展開するためにはモデル量子化が不可欠となっている。一方、モデルマージは、ジョイントトレーニングや複数モデルのサービス提供を必要とせずに、複数のタスク特化型またはドメイン特化型のエキスパートを単一モデルに統合する、実用的な低リソース戦略として重要性を増している。量子化とモデルマージを組み合わせることで、複数のエキスパートを単一の低ビットモデルに統合し、効率的な低リソース展開パイプラインが実現される。本研究では、この設定をマージ後量子化（Post-Merge Quantization, PMQ）と定義する。マージ後のモデルに学習後量子化（Post-Training Quantization, PTQ）を直接適用することは信頼性に欠けることを示す。なぜなら、低ビット再構成により導入される量子化誤差と、モデルマージから継承されるエキスパート間のマージ誤差という、2つの異なる誤差が結合するためである。これらの誤差を軽減するために、我々はE-PMQを提案する。これはエキスパート誘導型のPMQフレームワークであり、層ごとのキャリブレーションにおいて、ソースエキスパートの重みを用いてエキスパート誘導出力ターゲットを提供し、さらにマージ重みアンカリングによりキャリブレーションを安定化し、マージモデルの統合された振る舞いを保持する。CLIP-ViT-B/32の8タスクマージにおいて、E-PMQはTask Arithmetic下での4ビットGPTQを65.0%から73.6%に、TIES-Merging下では69.1%から74.8%に改善する。より困難な設定では、E-PMQは20タスクのCLIP-ViT-L/14においてGPTQを34.8%から76.7%に、FLAN-T5-baseのGLUEにおいて78.26%から83.34%に改善する。これらの結果は、E-PMQが効果的なマージ後量子化と低ビット展開を実現することを示している。

マルチモーダルLLM評価者の監査：臨床的順序スコアリングにおける中心傾向バイアス
Auditing Multimodal LLM Raters: Central Tendency Bias in Clinical Ordinal Scoring

May 11

ByJiaqing Zhang, Sandeep Elluri, Bhanu Cherukuvada, Yonah Joffe, Jessica Sena, Miguel Contreras, Scott Siegel, Subhash Nerella, Catherine Price, Parisa Rashidi

マルチモーダル大規模言語モデル（LLM）は、臨床現場での自動評価器としてますます研究されているが、順序臨床尺度におけるスコアリング行動は依然として十分に理解されていない。我々は、Shulman評価基準を用いて2つの公開データセット上の時計描画テスト（CDT）画像を評価する際に、3つの最先端LLMファミリーを教師あり深層学習モデルと比較評価した。完全にファインチューニングされたVision Transformerが最良のキャリブレーション（MAE 0.52、within-1精度91%）を達成する一方で、ゼロショットLLMは絶対誤差が大きいにもかかわらず、許容範囲に基づく一致（GPT-5 MAE 0.67、within-1精度92%）において競争力を維持している。しかし、スコア別分析により、3つのLLMファミリーすべてが顕著な中心傾向効果（系統的な端点圧縮）を示すことが明らかになった。予測が系統的に尺度の中央に向かって圧縮され、低スコア側（スコア0から1）では過大予測、高スコア側（スコア5から4）では過小予測が見られる。この効果は、正確なスコアリングが認知障害のスクリーニング判断に最も影響を与える臨床的に重要な極端なスコアに不均衡に影響を及ぼす。対象を絞ったアブレーション実験により、全スコア範囲をカバーする少数ショットの例示も、プロンプトから臨床用語を除去することも、この効果を排除できないことが示された。我々の知見は、LLMを判定者として用いる際のバイアスに関する文献をNLP評価から臨床評価に拡張し、重大な結果を伴うスクリーニングワークフローにLLMベースの評価者を導入する前に、キャリブレーションを考慮した評価と事後的キャリブレーションの必要性を強調する。

内部対話の監視：プローブ軌跡が明らかにする推論動態
Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

May 18

ByMaciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert

大規模推論モデル（LRM）は、思考連鎖（CoT）推論を通じて安全性監視に新たな機会をもたらす。しかし、CoTが常にモデルの最終出力に忠実であるとは限らず、監視ツールとしての信頼性を損なう。この問題に対処するため、我々はLRMの隠れ表現を調査し、プロンプトとCoT表現から将来の振る舞いを予測できるかを明らかにする。各生成トークンにおいてプローブを評価することで、推論過程全体にわたる概念確率の連続的な変化であるプローブ軌跡を構築する。将来のモデル振る舞いは、単一の静的予測よりも軌跡全体を通じて調べた方がより判別可能であることが分かる。これらの時間的ダイナミクスを特徴付けるため、変動性、トレンド、定常状態の挙動を捉える信号処理特徴量を抽出し、将来のモデル状態の分離を大幅に改善する。また、2つの方法論的洞察を示す。第一に、テンプレートベースの訓練データは動的に生成されたモデル応答とほぼ同等の性能を達成し、高コストな初期推論とラベル付けを不要にする。第二に、プーリング操作の選択が極めて重要である。平均プーリングと最終トークン法はランダムに近い性能に低下する一方、最大プーリングは最大95%のAUROCを達成し、安定したプローブ軌跡を与える。安全性と数学の領域にわたる4つのデータセットと4つの推論モデルを用いて、軌跡特徴量がタスク固有のダイナミクスを符号化し、結果の分離性を向上させることを実証する。これらの知見は、プローブ軌跡をLRMの振る舞い監視のための補完的枠組みとして確立するものである。警告：本論文には潜在的危険な内容が含まれています。

SCICONVBENCH: 計算科学におけるタスク定式化のためのマルチターン明確化でのLLMのベンチマーキング
SCICONVBENCH: Benchmarking LLMs on Multi-Turn Clarification for Task Formulation in Computational Science

May 18

ByNithin Somasekharan, Youssef Hassan, Shiyao Lin, Gihan Panapitiya, Patrick Emami, Anurag Acharya, Sameera Horawalavithana, Shaowu Pan

大規模言語モデル（LLM）は、科学AIアシスタントとしてますます広く導入されており、知識検索、推論、コード生成、ツール使用にわたる能力を評価するベンチマークが増加している。しかし、これらの評価は通常、科学問題が既に適切に定式化されていることを前提としている。一方、実際の科学的支援は、計算、分析、実験を確実に実行する前に、対話を通じて洗練されなければならない不適切なユーザー要求から始まることが多い。本稿では、流体力学、固体力学、材料科学、偏微分方程式（PDE）の4つの計算科学問題領域にわたる、科学的タスクの定式化におけるマルチターン明確化のためのベンチマークであるSCICONVBENCHを紹介する。SCICONVBENCHは、2つの補完的な能力を対象とする。すなわち、欠落情報の引き出し（曖昧性解消）と、内部に矛盾する情報を含む誤った要求の検出と修正（矛盾解決）である。本ベンチマークは、構造化されたタスクオントロジーとルーブリックベースの評価フレームワークを組み合わせ、明確化行動、会話的接地、最終仕様の忠実性の3次元にわたるLLM性能の系統的測定を可能にする。現在の最先端モデルは矛盾解決において比較的良好に機能するが、最良のモデルでも流体力学における曖昧性解消のケースの52.7%しか解決できない。さらに、最先端LLMはしばしば暗黙の仮定を行い、ユーザーとの会話に基づかない暗黙の仕様修正を実行することが明らかになった。SCICONVBENCHは、信頼性の高い計算科学アシスタントに必要な上流の会話的推論を評価するための基盤を確立する。コードとデータはhttps://github.com/csml-rpi/SciConvBenchで入手可能である。

AR-VLA: 視覚・言語・行動モデルのための真の自己回帰アクションエキスパート
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

May 11

ByYutong Hu, Jan-Nico Zaech, Nikolay Nikolov, Yuanqi Yao, Sombit Dey, Giuliano Albanese, Renaud Detry, Luc Van Gool, Danda Paudel

本稿では、リフレッシュ可能な視覚-言語プレフィックスを条件としながら、連続的な因果系列としてアクションを生成する、スタンドアロンの自己回帰型（AR）アクションエキスパートを提案する。新たな観測が得られるたびに時間的コンテキストをリセットし、事後的にアクションを予測する既存のVision-Language-Action（VLA）モデルや拡散ポリシーとは異なり、本アクションエキスパートは長期的なメモリを通じて自身の履歴を保持し、本質的にコンテキスト認識型である。この構造は、高速な制御と低速な推論の間の周波数の不一致に対処し、運動学的シンタックスの効率的な独立事前学習と、重い知覚バックボーンとのモジュラー統合を可能にすることで、フレーム間で時空間的に一貫したアクション生成を自然に保証する。これらの非同期なハイブリッドV-L-Aモダリティを同期させるために、トレーニング時および推論時の両方で知覚の遅延を数学的に考慮する再アンカリングメカニズムを利用する。シミュレーションおよび実ロボット操作タスクにおける実験により、提案手法がスペシャリストポリシーとジェネラリストポリシーの両方において、従来のチャンクベースのアクションヘッドを効果的に置き換えられることが示された。AR-VLAは優れた履歴認識能力と顕著に滑らかなアクション軌跡を示し、最先端のリアクティブVLAと同等以上のタスク成功率を維持または上回る。以上より、本稿はスケーラブルでコンテキスト認識型のアクション生成スキーマを導入し、効果的なロボットポリシーの訓練に堅牢な構造的基盤を提供する。コードとビデオはhttps://arvla.insait.aiで公開されている。

GRASP: 多人数の非言語的相互作用における社会的推論の接地を学習する
GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions

May 15

ByJunho Kim, Xu Cao, Houze Yang, Bikram Boote, Ana Jojic, Fiona Ryan, Bolin Lai, Sangmin Lee, James M. Rehg

社会的相互作用を理解するには、微妙な非言語的合図に基づく推論が必要であるが、現在のマルチモーダル大規模言語モデル（MLLM）は、複数人物が映る動画において誰が誰と相互作用的に関わっているかを特定することにしばしば失敗する。本稿では、高レベルの社会的QAと、視線および指示身振りイベントの詳細な情報を結びつける、大規模な社会的推論データセットGRASPを紹介する。GRASPは、合計749時間に及ぶ46,000本の動画に対して29万組の質問・回答ペアを含み、視線、身振り、および視線・身振り両方の推論にわたる16カテゴリの分類体系に整理されている。また、評価用のGRASP-Benchも併せて提供する。先行研究が単独の手がかりや高レベルの社会的QAのいずれかに焦点を当てていたのに対し、GRASPは、同一性が一貫した視線軌跡、指示身振り、およびそれらを社会的イベントとして合成したものから質問を構築する。さらに、社会的グラウンディング報酬（SGR）を提案する。これは、これらの社会的イベントを利用して、各相互作用に関与する参与者をモデルに推論させる学習信号である。実験により、SGRは関連する社会的動画QAベンチマークでのゼロショット性能を維持しつつ、GRASP-Benchの性能を向上させることが示された。

TopoPrimer：予測モデルにおける欠落した位相的文脈
TopoPrimer: The Missing Topological Context in Forecasting Models

May 14

ByZara Zetlin, Kayhan Moharreri, Maria Safi

我々は、系列集団の大域的なトポロジー構造をあらゆる予測モデルへの明示的な入力とするフレームワーク、TopoPrimerを導入する。TopoPrimerは多様な領域にわたって精度を向上させ、季節的な需要の急増下でも予測を安定化させ、コールドスタートのギャップを解消する。パーシステントホモロジーとスペクトル層座標により領域ごとに一度事前計算され、TopoPrimerは完全学習済みモデルに対してはトークン単位で展開され、事前学習済みバックボーンに対しては軽量なアダプタとして機能する。この2つの構成要素のうち、層座標が精度向上の主要因である。ChronosおよびTimesFMにおける4つの公開ベンチマークで、TopoPrimerは一貫して予測精度を向上させ、ECLにおいて最大7.3%のMSE改善を達成した。トポロジーの利点は、ゼロショットおよびファインチューニングされたバックボーンの両方でほぼ同一の大きさで持続し、トポロジーと系列ごとの学習が相補的な信号を捉えていることを示唆する。改善効果は困難な状況で最も顕著である。ピーク時の季節需要下では、古典的モデルおよびゼロショットモデルは最大50%劣化するのに対し、TopoPrimerは10%以内に留まる。アイテムの履歴が存在しないコールドスタートでは、TopoPrimerはトポロジーを考慮しないベースラインと比較してMAEを27%低減する。