HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

53 papers found

音声対話モデル
Audio Interaction Model

Jun 3

ByZhifei Xie, Zihang Liu, Ze An, Xiaobin Hu, Yue Liao, Ziyang Ma, Dongchao Yang, Mingbao Lin, Deheng Ye, Shuicheng Yan, Chunyan Miao

音声は本質的にインタラクティブなモダリティであるが、今日の大規模音声言語モデル（LALM）はオフラインであり、ストリーミング音声モデルはそれぞれストリーミングASRや音声チャットのような単一のタスクしか扱っていない。これらを1つのオンラインLALMに統合する時である。すなわち、常時動作する知覚-判断-応答ループを通じて、音、環境、指示をリアルタイムに聞き取り、即座に反応するモデルである。我々はこの枠組みを音声対話モデル（Audio Interaction Model）として定式化し、オフラインタスクの実行を維持しつつ、対話から本格的な音声チャットに至るまでオンラインの汎用音声指示追従を追加し、ストリームの意味から応答タイミングを決定する統合ストリーミングモデルであるAudio-Interactionによってこれを実現する。これを可能にするために、我々はSoundFlowを提案する。SoundFlowは、ストリーミングに特化したデータ構築、理解を考慮したトレーニング、そして安定したリアルタイム対話のための非同期低レイテンシ推論を通じて、知覚-判断-応答ループをデータからトレーニング、デプロイメントまでエンドツーエンドで具現化するフレームワークである。さらに、7つの基本能力と28のサブタスクにわたる260万項目のストリーミングコーパスであるStreamAudio-2Mと、プロアクティブな音声介入を評価するためのProactive-Sound-Benchを構築する。8つのベンチマークにおいて、Audio-Interactionは主流の音声タスクで競争力のある性能を維持しつつ、リアルタイムASR、ストリーミング音声指示追従、プロアクティブな支援など、オフラインLALMでは不可能な能力を解放する。

コスモス3：物理AIのための全モーダル世界モデル
Cosmos 3: Omnimodal World Models for Physical AI

Jun 1

ByAditi, Niket Agarwal, Arslan Ali, Jon Allen, Martin Antolini, Adeline Aubame, Alisson Azzolini, Junjie Bai, Maciej Bala, Yogesh Balaji, Josh Bapst, Aarti Basant, Mukesh Beladiya, Mohammad Qazim Bhat, Zaid Pervaiz Bhat, Dan Blick, Vanni Brighella, Han Cai, Tiffany Cai, Eric Cameracci, Jiaxin Cao, Yulong Cao, Mark Carlson, Carlos Casanova, Ting-Yun Chang, Yan Chang, Yu-Wei Chao, Prithvijit Chattopadhyay, Roshan Chaudhari, Chieh-Yun Chen, Junyu Chen, Ke Chen, Qizhi Chen, Wenkai Chen, Xiaotong Chen, Yu Chen, An-Chieh Cheng, Click Cheng, Xiu Chia, Jeana Choi, Chaeyeon Chung, Wenyan Cong, Yin Cui, Magdalena Dadela, Nalin Dadhich, Wenliang Dai, Joyjit Daw, Alperen Degirmenci, Rodrigo Vieira Del Monte, Robert Denomme, Sameer Dharur, Marco Di Lucca, Ke Ding, Wenhao Ding, Yifan Ding, Yuzhu Dong, Nicole Drumheller, Yilun Du, Aigul Dzhumamuratova, Aleksandr Efitorov, Hamid Eghbalzadeh, Naomi Eigbe, Imad El Hanafi, Hassan Eslami, Benedikt Falk, Jiaojiao Fan, Jim Fan, Amol Fasale, Sergiy Fefilatyev, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Vikram Fugro, Prashant Gaikwad, TJ Galda, Katelyn Gao, Yihuai Gao, Wenhang Ge, Sreyan Ghosh, Arushi Goel, Vivek Goel, Akash Gokul, Rama Govindaraju, Jinwei Gu, Miguel Guerrero, Elfie Guo, Aryaman Gupta, Siddharth Gururani, Hugo Hadfield, Song Han, Ankur Handa, Zekun Hao, Mohammad Harrim, Ali Hassani, Nathan Hayes-Roth, Yufan He, Chris Helvig, Cyrus Hogg, Madison Huang, Michael Huang, Sophia Huang, Yufan Huang, Jacob Huffman, DeLesley Hutchins, Suneel Indupuru, Boris Ivanovic, Arihant Jain, Joel Jang, Ryan Ji, Yanan Jian, Dongfu Jiang, Jingyi Jin, Atharva Joshi, Nikhilesh Joshi, Pranjali Joshi, Jaehun Jung, Weiwei Kang, Scott Kassekert, Jan Kautz, Ashna Khetan, Julia Kiczka, Slawek Kierat, Gwanghyun Kim, Kuno Kim, Sunny Kim, Kezhi Kong, Xin Kong, Zhifeng Kong, Tomasz Kornuta, Egor Krivov, Hui Kuang, Saurav Kumar, Chia-Wen Kuo, George Kurian, Wojciech Kutak, JF Lafleche, Himangshu Lahkar, Omar Laymoun, Jayjun Lee, Sanggil Lee, Gabriele Leone, Boyi Li, Freya Li, Jiajun Li, Jinfeng Li, Ling Li, Pengcheng Li, Shangru Li, Tingle Li, Xiaolong Li, Xuan Li, Zhaoshuo Li, Zhiqi Li, Hao Liang, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Ming-Yu Liu, Sifei Liu, Zihan Liu, Hai Loc Lu, Xiangyu Lu, Alice Luo, Ruipu Luo, Wenjie Luo, Jiangran Lyu, Martin Ding Ma, Nic Ma, Qianli Ma, Dawid Majchrowski, Louis Marcoux, Miguel Martin, Qing Miao, Ashkan Mirzaei, Shreyas Misra, Kaichun Mo, Durra Mohsin, Hyejin Moon, Pawel Morkisz, Saeid Motiian, Kirill Motkov, Seungjun Nah, Yashraj Narang, Deepak Narayanan, Thabang Ngazimbi, Julian Ouyang, David Page, Yatian Pang, Sehwi Park, Mahesh Patekar, Mostofa Patwary, Marco Pavone, Trung Pham, Wei Ping, Soha Pouya, Shrimai Prabhumoye, Varun Praveen, Delin Qu, Hesam Rabeti, Morteza Ramezanali, Marilyn Reeb, Xuanchi Ren, Kristen Rumley, Wojciech Rymer, Jun Saito, Yeongho Seol, John Shao, Piyush Shekdar, Tianwei Shen, Humphrey Shi, Min Shi, Stella Shi, Kevin Shih, Mohammad Shoeybi, Mateusz Sieniawski, Shuran Song, Alexander Sotelo, Amir Sotoodeh, Sunil Srinivasa, Vignesh Srinivasakumar, Bartosz Stefaniak, Rahul Heinrich Steiger, Shangkun Sun, Jiaxiang Tang, Shitao Tang, Yangyang Tang, Yue Tang, Tolou Tavakkoli, Kayley Ting, Krzysztof Tomala, Wei-Cheng Tseng, Jibin Varghese, Sergei Vasilev, Thomas Volk, Raju Wagwani, Roger Waleffe, Andrew Z. Wang, Boxiang Wang, Haoxiang Wang, Qiao Wang, Shihao Wang, Shijie Wang, Ting-Chun Wang, Yan Wang, Yu Wang, David Wehr, Fangyin Wei, Xinshuo Weng, Jay Zhangjie Wu, Kedi Wu, Hongchi Xia, Summer Xiao, Tianjun Xiao, Kevin Xie, Daguang Xu, Jiashu Xu, Mengyao Xu, Ruqing Xu, Xingqian Xu, Yao Xu, Dinghao Yang, Dong Yang, Hans Yang, Xiaodong Yang, Xuning Yang, Yichu Yang, Yurong You, Zhiding Yu, Hao Yuan, Simon Yuen, Xiaohui Zeng, Pengcuo Zeren, Cindy Zha, Haotian Zhang, Jenny Zhang, Jing Zhang, Liangkai Zhang, Paris Zhang, Shun Zhang, Xuanmeng Zhang, Zhizheng Zhang, Ann Zhao, Yilin Zhao, Yuliya Zhautouskaya, Charles Zhou, Fengzhe Zhou, Shilin Zhu, Yuke Zhu, Dima Zhylko, Artur Zolkowski

本稿では、言語、画像、ビデオ、音声、行動系列を統一されたMixture-of-Transformersアーキテクチャ内で共同処理・生成するように設計された、オムニモーダル世界モデルのファミリーであるCosmos 3を紹介します。高度に柔軟な入出力構成をサポートすることで、Cosmos 3はPhysical AIにとって重要なモダリティをシームレスに統合し、視覚言語モデル、ビデオ生成器、世界シミュレータ、世界行動モデルを単一のフレームワークに効果的に包含します。評価の結果、Cosmos 3は多様な理解・生成タスクにおいて新たな最先端を確立し、オムニモーダル世界モデルが具現化エージェントのためのスケーラブルで汎用的なバックボーンであることを実証しています。本技術報告書作成時点で、我々のポスト学習済みCosmos 3モデルは、Artificial Analysisにより最優秀オープンソースText-to-ImageモデルおよびImage-to-Videoモデル、RoboArenaにより最優秀ポリシーモデルとして評価されました。Physical AIにおけるオープンな研究と展開を加速するため、コード、モデルチェックポイント、厳選された合成データセット、評価ベンチマークをLinux FoundationのOpenMDW-1.1ライセンス（https://openmdw.ai/license/1-1/）の下で公開しています。これらのリソースは https://github.com/nvidia/cosmos および https://huggingface.co/collections/nvidia/cosmos3 で入手可能です。プロジェクトのウェブサイトは https://research.nvidia.com/labs/cosmos-lab/cosmos3 です。

深層リサーチエージェントはどこで間違うのか？エージェントの軌跡におけるスパンレベルの誤り位置特定
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

Jun 1

ByJiaming Wang, Ziteng Feng, Jiangtao Wu, Ruihao Li, Qianqian Xie, Yuxiang Ren, He Zhu, Xueming Han, Fanyu Meng, Junlan Feng, Jiaheng Liu

深層研究エージェントは、検索、ツール使用、証拠検査、回答合成からなる長い軌跡を通じてタスクを解決します。最終回答に基づく評価はエージェントが成功したかどうかを示しますが、軌跡のどの部分が回答を信頼性の低いものにしているかは示しません。我々は、深層研究エージェントのためのスパンレベルのエラー特定を研究します。我々は、2つのエージェントフレームワーク、3つのバックボーンモデル、3つのベンチマークから2,790の実際の軌跡を収集し、生のログを意味的スパンに変換し、LLM支援による専門家レビューを通じて有害なエラースパンを注釈付けします。これらの注釈から、我々はTELBenchを構築します。これは、通常の探索、失敗した検索、暫定仮説、無害なノイズの中からエラースパンを特定するための1,000インスタンスのベンチマークです。さらに我々はDRIFTを提案します。これは、エージェントの主張を追跡し、軌跡の証拠におけるそれらの支持をチェックし、根拠のない主張や矛盾した主張が回答経路に影響を与えるスパンをマークする、主張中心の監査フレームワークです。モデルファミリーと監査フレームワークにわたる実験は、DRIFTがスパンレベルのエラー特定と最初のエラー精度を最大30パーセントポイント向上させることを示しています。我々の研究は、深層研究エージェントにおける信頼性のプロセスレベルのビューを提供します。

ルーブリックベースの強化学習における報酬ハッキングの再現、分析、および検出
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

Jun 3

ByXuekang Wang, Zhuoyuan Hao, Shuo Hou, Hao Peng, Juanzi Li, Xiaozhi Wang

ルーブリックベースの強化学習（Reinforcement Learning, RL）では、LLM-as-a-Judge（LaaJ）を用いて、ルーブリックに従ってモデルの出力をスコアリングし、これを報酬として利用する。しかし、ポリシーモデルが評価者の潜在的なバイアスを悪用することで、報酬ハッキングが発生し、効果的でない、あるいは安全でない学習結果を招く可能性がある。現実のルーブリックベースRLにおいて、このようなハッキング動作はしばしば微妙であり、複数の評価者のバイアスが絡み合っているため、分析、検出、軽減が困難である。本稿では、ルーブリックベースRL向けの制御可能なハッキング環境であるCHERRLを紹介する。既知のバイアスをLaaJに注入することで、CHERRLは報酬ハッキングの安定的な再現、報酬の乖離の明示的な観察、そしてハッキング発生時点の正確な特定を可能にする。これにより、ルーブリックベースRLにおける報酬ハッキングのメカニズムとその軽減策を研究するための、クリーンな実験用テストベッドが提供される。その有用性を示すため、発見可能性と悪用可能性の観点から異なる評価者のバイアスを分析し、学習ログから報酬ハッキングの発生を自動的に検出するエージェントベースのシステムを探求する。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されている。

Qwen-Image-Flash: 客観的デザインを超えて
Qwen-Image-Flash: Beyond Objective Design

Jun 2

ByTianhe Wu, Kun Yan, Zikai Zhou, Lihan Jiang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Ningyuan Tang, Shengming Yin, Xiaoyue Chen, Xiao Xu, Yilei Chen, Yuxiang Chen, Yan Shu, Yixian Xu, Yanran Zhang, Zihao Liu, Zhendong Wang, Zekai Zhang, Deqing Li, Liang Peng, Yi Wang, Jingren Zhou, Chenfei Wu

数ステップ蒸留は、高度な視覚生成モデルを高速化する効果的な戦略として確立されつつあるが、これまでの研究では主に蒸留の目的関数に焦点が当てられてきた。本研究では、補完的な視点から数ステップ蒸留を再検討し、生徒モデルの性能を決定的に左右する訓練レシピに注目する。Qwen-Image-2.0を代表的な事例として、統合テキスト-to-画像生成と指示誘導型画像編集蒸留における三つの要因、すなわちデータ構成、教師ガイダンス、タスク混合を体系的に調査する。実験的分析により、いくつかの非自明な振る舞いが明らかとなり、これがQwen-Image-Flashの開発へとつながった。全体として、本研究の結果は、効果的な数ステップ蒸留には慎重に設計された目的関数だけでなく、より広範な訓練パイプラインの原理に基づいた組織化が不可欠であることを示している。

OVO-S-Bench: マルチモーダルLLMにおけるストリーミング空間知能のための階層的ベンチマーク
OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

Jun 2

ByYifei Li, Pengyiang Liu, Yuhang Zang, Zhongyue Shi, Qi Fu, Hongye Hao, Jiwen Lu

ロボティクス、AR、自動運転におけるマルチモーダルエージェントは、連続的な自己中心的なストリームから場所やレイアウトを推論する必要があり、多くの場合、現在の視野外の証拠を利用する。既存のベンチマークは、全動画をオフラインで評価するか、空間構造ではなくイベントを対象としている。我々は、ストリーミング空間知能のための完全に人手でアノテーションされたベンチマークであるOVO-S-Benchを紹介する。これは348本のソース動画にわたる1,680の質問から構成される。アノテーションには12名の訓練されたアノテーターが参加し、各アノテーターはブラインドの相互レビュアーも兼任し、約804人時の複数ラウンドの品質保証を行った。各質問にはクエリタイムスタンプとエビデンス区間が付与されており、評価時にはモデルはクエリより前のプレフィックスのみを参照する。質問は抽象化の度合いが高まる4つのレベルにわたる：即時的自己中心知覚、時空間コンテキスト追跡、空間シミュレーションと推論、そして全地球的マッピングである。38のプロプライエタリおよびオープンソースのMLLMの中で、Gemini-3.1-Proは人間の専門家に27ポイント劣り、59.2対86.6であり、全地球的マッピングが主要なボトルネックとなっている。特筆すべきは、ストリーミングおよび空間ファインチューニングされたMLLMが、そのバックボーン自体よりも性能が低いことである。さらに、チェーン・オブ・ソート推論は、ストリームに基づかない場合に空間エラーを増幅することがわかった。これらの限界を明らかにすることで、OVO-S-Benchは次世代のストリーミング空間MLLMのための要求の厳しいテストベッドを確立する。

ThoughtFold：内省的選好学習による推論連鎖の折り畳み
ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

Jun 2

ByZiyan Liu, Xueda Shen, Yuzhe Gu, Songyang Gao, Kuikun Liu, Guangran Cheng, Chengqi Lyu, Dahua Lin, Wenwei Zhang, Kai Chen

大規模推論モデル（LRMs）は、思考連鎖（CoTs）に対する検証可能報酬を用いた強化学習（RLVR）によって顕著な進歩を遂げてきた。しかしながら、長いCoTには本質的に試行錯誤が含まれており、主流のRLVRアプローチは結果が正しいCoT軌跡を記憶のために選択するため、長いCoT内の冗長な探索が不可避的に強化され、その結果LRMの過剰思考問題を引き起こす。この問題を解決するための従来の試みは主に短い軌跡に有利になるようにしていたが、それらの学習信号は依然として結果ベースであり、長いCoTにおける冗長な探索の記憶化を低減することはできなかった。そこで我々は、効率的な推論のために冗長な探索を軽減する、きめ細かい嗜好学習を活用したフレームワークであるThoughtFoldを提案する。ThoughtFoldは内省的な戦略を用いて、各正しい軌跡内の冗長性を特定し、これにより一連の候補サブ軌跡を得る。この一連のサブ軌跡を活用して、冗長な探索を明示的に罰し、モデルが本質的な推論セグメントを直接橋渡しすることを促す、マスク付き嗜好最適化目的関数を導入する。これにより、推論連鎖をより簡潔な経路に効果的に折りたたむ。広範な実験により、ThoughtFoldが効率を大幅に向上させることが示された。DeepSeek-R1-Distill-Qwen-7Bのトークン使用量を約56%削減しつつ、最先端の精度を維持する。

M^3Eval: 認知基盤ビデオタスクによるマルチモーダル記憶評価
M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

Jun 3

ByJie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong

マルチモーダルモデルが長時間動画理解へと進化するにつれ、記憶は重要な能力として浮上している。動画データセットやベンチマークの開発に多大な努力が注がれてきたものの、既存の研究は主に知覚と推論に焦点を当てており、記憶を体系的に評価していない。すなわち、モデルが何を保持するのか、情報がどの程度忠実に保存されるのか、干渉下で記憶がどの程度頑健であるのか、といった点である。このギャップを埋めるため、我々はM^3Evalを提案する。これは、マルチモーダルモデルにおける異なる記憶次元を探るための初の包括的評価フレームワーク兼ベンチマークである。認知心理学に基づき、我々の設計では記憶の重要な側面を抽出するように注意深く構築されたタスクを特徴とする。M^3Evalを活用し、代表的なマルチモーダルモデルに対して広範な実験を行い、一貫した弱点と特徴的な振る舞いを明らかにした。具体的には、モデルは並列的な動画ストリームを処理する際に分離された表現を維持することに苦労し、人間の記憶で観察されるものとは大きく異なる干渉パターンを示し、時間領域よりも空間領域においてより確実に記憶の源泉を特定し、限定的な記号記憶を示すことがわかった。総じて、我々のベンチマークは将来の研究にとって貴重なリソースを提供する。一方で、我々の発見は記憶が基本的でありながら未解明の能力であることを強調し、マルチモーダルモデルにおけるより効果的な記憶メカニズムを設計するための洞察を提供する。コードとデータセットはhttps://pku-value-lab.github.io/m3eval-homepageで入手可能である。

マルチエージェント推論におけるストリーミング通信
Streaming Communication in Multi-Agent Reasoning

Jun 3

ByZhen Yang, Xiaogang Xu, Wen Wang, Cong Chen, Xander Xu, Ying-Cong Chen

マルチエージェント推論システムは、「生成して転送する」パラダイムを採用しており、エンドツーエンドのレイテンシがパイプライン深度に比例して線形にスケールすることを余儀なくされる。我々はStreamMAを導入する。これは、各推論ステップが生成され次第、下流エージェントにストリーム配信することで、隣接エージェントをパイプライン化し、レイテンシを削減するマルチエージェント推論システムである。驚くべきことに、このパイプライン化は有効性も向上させる。なぜなら、多段階推論の品質は一様ではなく、初期ステップの方が後期ステップよりも信頼性が高いため、完全な連鎖ではなくこれらの信頼性の高い初期ステップを使用することで、エラーを起こしやすい後期ステップが下流エージェントを誤導するのを防ぐことができるからである。我々は、ストリーム、シリアル、シングルの各プロトコルに対する初の閉形式同時解析により、これら両方の利点を形式化し、有効性の順序、高速化の上限、コスト比率を導出する。数学、科学、コードにわたる8つの推論ベンチマーク、2つのフロンティアLLM（Claude Opus 4.6およびGPT-5.4）、および3つのトポロジ（チェーン、ツリー、グラフ）において、StreamMAは両方のベースラインを上回った（HMMT 2026で平均+7.3 pp、最大+22.4 pp；Claude Opus 4.6-high）。これらの貢献に加えて、我々は「ステップレベルのスケーリング則」を発見した。すなわち、エージェントあたりのステップ数を増やすと、有効性と効率の両方が一貫して向上する。これは、エージェント数のスケーリングとは直交し、組み合わせ可能な新たなスケーリング次元である。

Echo-Infinity: リアルタイム無限動画生成のための進化的メモリ学習
Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

Jun 3

ByYuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, Qiang Xu

我们提出Echo Infinity，一种面向实时无限视频生成的自回归框架，采用可学习的演化记忆，以恒定成本动态过滤、抽象和压缩任意长度的历史信息。现有方法主要通过预定义的KV-cache调度、固定比例的启发式压缩或推理时的RoPE适配来管理记忆。这些设计由于缓存窗口有限且忽视自回归生成噪声，不可避免地丢失历史信息并放大累积误差。受人类记忆巩固机制的启发，Echo-Infinity用可学习的Memory Query替代手工设计的记忆管理方式，当历史帧从局部窗口中被驱逐时，通过注意力机制和门控机制更新这些查询。这些查询与视频扩散Transformer（DiT）进行端到端联合优化，形成支持任意压缩比的演化记忆，其计算量恒定且不随视频长度变化。它们还充当可泛化的生成先验，即使仅使用优化后的初始状态也能提升生成质量。我们进一步提出了统一相对RoPE方案，该方案将sink帧锚定在id 0起始，并在训练和推理过程中让最新帧的id最多增长到DiT预训练的最大时间RoPE id，从而将模型从有限RoPE约束中解放出来，并消除训练-测试RoPE外推差距。在长视频和短视频生成中，Echo-Infinity取得了最先进性能，并且据我们所知，首次展示了具有前景的24小时（超过130万帧）实时生成能力，为无限视频生成开辟了一条实用路径。

ベンチマークだけでは不十分：本番システムにおけるエージェントモデルの実行時評価のためのRAMP
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

May 26

ByYipeng Ouyang, Xin Huang, Bingjie Liu, Zhongchun Zheng, Yuhao Gu, Xianwei Zhang

LLMエージェントは、コードアシスタントから自律的なソフトウェアエンジニアリングシステムへと急速に進化している。しかし、既存の評価手法は依然として、静的で孤立した短期志向のベンチマークに大きく依存しており、実運用のワークフローが持つ動的な複雑性を捉え切れていない。その結果、ベンチマークでの性能は、長い実行チェーン、ツール連携、依存関係管理、反復的なフィードバックループを含む現実的な実行環境下での実用的能力を適切に反映しない可能性がある。そこで本稿では、長期間にわたるソフトウェアエンジニアリングエージェントを評価するための、実運用に基づくインフラストラクチャであるRAMPを提案する。YatCC統合プラットフォーム上に構築されたRAMPは、標準化されたオーケストレーションおよび実行インターフェースを通じて、統一された実行時評価アーキテクチャを提供する。RAMPは、直列的な依存関係と複雑なツールチェーン連携を伴う現実的なコンパイラ構築ワークロードを導入し、さらに部分的なワークフロー障害下での実行挙動を分析するための段階的回復メカニズムを備えている。本フレームワークはさらに、成果の質とプロセスの効率を共同で評価する、実用性指向の多次元指標を取り入れている。我々は15の主流モデルに対して実行時評価を実施し、従来の孤立したベンチマークではほとんど見えない、顕著な能力低下を観察した。タスク完了率は直列的なワークフロー全体で徐々に低下し、初期段階の100%から最終段階ではわずか20%にまで落ち込み、評価した全モデルがパイプライン全体を正常に完了することはなかった。実行時分析により、系統的な障害伝播と著しいリソース非効率が明らかになり、同等のモデル間でも計算コストに最大3桁の差が生じた。これらの知見は、RAMPがエージェントモデルの評価を、継続的で実行時観測可能かつ実運用に根ざした評価へと進化させることを示唆している。

自己蒸留方策勾配
Self-Distilled Policy Gradient

Jun 2

ByYifeng Liu, Shiyuan Zhang, Yifan Zhang, Quanquan Gu

オン方策自己蒸留（言語モデルが特権的文脈に条件付けを行い、自身の生成を監督する手法）は、疎報酬強化学習における密度の高い監督信号の有望な供給源である。実際、これは補助的な全語彙生徒-教師間逆KLダイバージェンス損失として具体化できる。そこで我々はSDPG（自己蒸留方策勾配フレームワーク）を提案する。SDPGは、グループ相対検証器アドバンテージと正規化標準偏差、正確な全語彙オン方策自己蒸留、さらに参照方策KL正則化を組み合わせる。実験的に、SDPGはRLVRおよび自己蒸留ベースラインと比較して安定性と性能を向上させる。コードはhttps://github.com/lauyikfung/SDPGで入手可能である。

MemTrain: 自己教師あり文脈記憶訓練
MemTrain: Self-Supervised Context Memory Training

Jun 2

ByZiheng Li, Xingrun Xing, Haoqing Wang, Zhi-Hong Deng, Yehui Tang

記憶は、長期的なインタラクションを行うLLMエージェントにとって不可欠な能力であり、長期にわたるやり取りを通じて蓄積された情報を保持・活用することを可能にする。既存の記憶エージェント手法は、通常、下流タスクに関する強化学習を用いてエンドツーエンドで訓練される。しかし、記憶集約的なシナリオ向けの高品質なアノテーション付き問題を収集するにはコストがかかり、得られる訓練データは一般的な記憶行動をカバーするのに十分な多様性を欠くことが多い。本研究では、下流タスクにおける事後訓練をより効果的に行うため、LLMエージェントのコンテキスト記憶能力を全般的に向上させる自己教師あり訓練フレームワークMemTrainを提案する。MemTrainは、ラベルなしのWikipediaコーパスに対して、連携した2つの代理タスクを導入する。(1)エンドツーエンドのマスク再構成目的：モデルが複数回の記憶更新後にマスクされたエンティティを復元することを要求し、最終的な結果の観点から記憶保持を促進する。(2)中間記憶想起目的：モデルが中間記憶状態を用いてマスクされた過去の情報を再構成することを要求し、インタラクション過程全体を通じた忠実な圧縮と記憶の完全性を促進する。これら2つの目的はGRPOを用いて共同最適化される。長文QAおよび検索ベースQAのベンチマークを用いた大規模実験により、MemTrainは異なるモデルにわたって下流の記憶集約的な推論性能を一貫して向上させ、タスク固有の直接的な事後訓練と比較して最大17.67ポイントの改善を達成することを示す。

ワイドベースラインマッチングによるMLLMにおける複雑な空間推論の誘発
Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

Jun 2

ByHao Zhong, Muzhi Zhu, Shenyan Zeng, Anzhou Li, Cong Chen, Hua Geng, Duochao Shi, Wentao Ye, Tao Lin, Hao Chen, Chunhua Shen

広基線マッチング（WBM）は、幾何学的理解、視点変化、細粒度知覚、遮蔽推論の統合を必要とし、物理環境に展開されるマルチモーダル大規模言語モデル（MLLM）における空間推論の困難なテストベッドとなる。しかし、現在のMLLMはこれらの能力に対する体系的な評価と学習フレームワークを欠いている。本稿では、視点移動とマッチング粒度に基づいて層別化された、屋内、屋外、物体中心のシナリオにわたるベンチマークであるReasonMatch-Benchを導入し、現在のMLLMが依然として細粒度の広基線対応関係に苦戦していることを示す。困難な90サンプルのサブセットにおいて、人間のアノテータは84.0のF1値を達成する一方、最良の既存ベースラインは37.2に留まる。このギャップを埋めるために、大規模なビデオ-3Dコーパス（RGB-DビデオやSfM再構成を含む）から広基線ビューペアを自動的に抽出し、多様で検証可能な教師信号を生成するスケーラブルなデータ生成パイプラインを構築する。さらに、動的対応関係強化学習（DCRL）を提案する。これは、画像レベルの視点進行と点レベルの対応関係カリキュラムを組み合わせ、明示的なCoT教師信号なしに検証可能な報酬を通じてWBM学習を改善する。広範な実験により、DCRLがReasonMatch-Benchを大幅に改善し、関連する空間ベンチマークに転移するとともに、いくつかのベンチマークで緩やかな向上を示しながら、一般的な視覚理解性能を維持することを示す。

MMG2Skill: エージェントは実世界のガイドを自己進化スキルに蒸留できるか？
MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

Jun 1

ByXinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

ウェブ上に豊富に存在する手続き的知識は、エージェントが長期的タスクを解決する上で大きな可能性を秘めている。しかし、そのような知識は多くの場合、マルチモーダルで異種混合、ノイズが多く、暗黙のうちに人間の実行主体を前提としているため、エージェントに要求されるスキルとして直接利用することは困難である。人間向けのガイドとエージェント実行可能なスキルの間のギャップを埋めるために、我々はこの問題をガイドからスキルへの学習として定式化する。すなわち、実世界のガイドを実行可能なスキルに変換し、エージェントが観測可能な軌跡からそれらを継続的に改善する。既存のエージェントのこのタスクにおける能力を評価するために、我々はこの問題向けに設計された初のベンチマークであるMMG2Skill-Benchを導入する。さらに我々はMMG2Skillを提案する。これは閉ループフレームワークであり、ガイドを編集可能なスキルにコンパイルし、実行中に固定された視覚言語モデル(VLM)エージェントをこれらのスキルで条件付け、ベンチマークスコアを使用せずに軌跡レベルの根本原因フィードバックからスキルを修正する。GUI制御、オープンエンドなゲームプレイ、戦略的カードプレイにおいて、6つのVLMバックボーンを用いた実験の結果、MMG2Skillはすべてのモデル・ドメイン設定において標準ベースラインエージェントを一貫して上回り、バックボーン全体でマクロ平均で+12.8から+25.3パーセンテージポイントの向上を達成した。アブレーション研究により、生のガイドを直接エージェントにプロンプトとして与えると性能が低下する可能性がある一方、観測された改善には構造化されたスキル構築と軌跡駆動型修正の両方が必要であることが示された。成功推論可能タスクでは、アナライザーベースの早期停止により、後期の性能低下をさらに防ぎ、成功信号が適切に較正された場合に試行の25%から53%を節約できる。

MapAgent: 都市規模の車線レベル地図生成のための産業グレードエージェントフレームワーク
MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

Jun 3

ByDeguo Xia, Zihan Li, Haochen Zhao, Dong Xie, Yuyao Kong, Xiyan Liu, Jizhou Huang, Mengmeng Yang, Diange Yang

レーンレベルの地図は自動運転およびレーンレベルのナビゲーションにとって重要な基盤であるが、数百もの都市に対して標準化されたレーンネットワークを構築・維持することは依然として極めて労働集約的である。近年のエンドツーエンドのベクトル化マッピング手法は、センサーデータから直接レーンの形状やトポロジーを予測できるが、通常、マッピング仕様や交通規制を暗黙的かつデータセット依存の教師信号として扱う。さらに、複雑なシーン（例えば、摩耗や欠落した標示、遮蔽など）では、視覚的証拠のみでは正しいレーン構成が決定不能となる場合が多く、仕様違反が人間による後処理の主な原因となっている。我々は、仕様に準拠したレーンマップ生成のためのベクトル化バックボーンを強化する、産業グレードのエージェント的アーキテクチャであるMapAgentを提案する。MapAgentは、単にエージェントループをマップ予測に追加するのではなく、バックボーンの知覚と明示的な仕様検証、制約認識推論、および決定論的なマップ編集を、限定された検証駆動型のJudge-Planner-Workerループの下で結合する。視覚言語モデルであるJudgeは、視覚的証拠とドラフトベクトルを共同で検査することでエラーを診断し、ツール呼び出しを行うPlannerは、最小限の修正編集を生成し、編集後の再検証を行う。都市規模の生成に対応可能にするため、MapAgentはバックボーンの信頼度が低いタイルにのみ選択的にトリガーされ、スループットを維持しつつ追加のオーバーヘッドを抑える。実世界のデータセットを用いた実験では、特に複雑でロングテールなシナリオにおいて、強力なプロダクションベースラインを一貫して上回る改善を示した。さらに、MapAgentはBaidu Mapsに統合され、全国360以上の都市におけるレーンレベルの地図生成をサポートし、全体的な生成自動化率を95%以上に引き上げており、大規模なレーンレベル地図生成におけるMapAgentの実用性と有効性を示している。

フィルタリング、そして再重み付け：オンポリシー蒸留における最適化の粒度の再考
Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Jun 1

ByYuying Li, Leqi Zheng, Yongzi Yu, Wenrui Zhou, Xuchang Zhong, Xing Hu, Jing Jin, Huangjie Yuan, Tao Feng

大規模言語モデルにおけるオン・ポリシー蒸留（OPD）は、全軌跡KL監視からより選択的な訓練パラダイムへと移行している。最近のOPD手法は、どの軌跡から学習するか、どのトークンが最も情報量が豊富か、どの監視信号が最も信頼できるかの選択にますます焦点を当てている。この傾向に動機づけられ、我々はOPDの最適化粒度を再考し、\fireicon\ FiRe-OPD（Filter, then Reweight）を提案する。これは軌跡レベルとトークンレベルの両方で監視信号を共同で調整する。詳細には、FiRe-OPDはまず軌跡をフィルタリングして低品質のロールアウトサンプルを除去し、次に保持された軌跡内でソフト再重み付けを適用して情報量の多いトークンを強調する。ハードトークン選択と比較して、FiRe-OPDはソフト重み付けメカニズムを活用し、情報損失を効果的に軽減し、最適化の安定性を向上させることで、より細かい粒度のOPD最適化を実現する。我々はFiRe-OPDの有効性を、強から弱への設定、単一教師設定、複数教師設定にわたって検証し、最近のトークンレベルのOPD手法に対する優位性を示す（例えば、強から弱への設定でAIME 2024において+6.25、複数教師設定でMinerにおいて+18.81）。我々のコードは https://github.com/YuYingLi0/FiRe-OPD で入手可能である。

AAD-1: 非対称敵対的蒸留による一段階自己回帰動画生成
AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation

Jun 2

ByHaobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang

我々は、一段階自己回帰画像から動画への生成のための非対称敵対的蒸留フレームワーク、AAD-1を提案する。最先端手法は敵対的蒸留を採用するが、動作崩壊や訓練の不安定性に悩まされ、静止した動画を生じる。AAD-1は、アーキテクチャと訓練戦略における2つの主要な設計により、これらの課題に対処する。アーキテクチャ上の鍵となる洞察は、生成器と識別器の間の対称性を破ることである。生成器は自己回帰サンプリング能力を維持するために因果的であり続ける一方、識別器は時空間コンテキスト全体にわたって双方向に注目し、動画シーケンス全体に対して単一の全体的なリアリズムスコアを生成する。この非対称な設計により、識別器は自己回帰生成における動作崩壊の原因となる大域的な時間的失敗や長距離ドリフトを効果的に検出できる。訓練を安定させるために、まず分布マッチングを使用して安定した一段階生成器をブートストラップし、敵対的蒸留が始まる前に学生分布を教師分布に近づけるウォームアップフェーズを提供する段階的戦略を導入する。VBenchにおける広範な実験により、AAD-1が一段階自己回帰動画生成において最先端の性能を達成することを実証する。

ZipSplat: より少ないガウシアン、より良いスプラット
ZipSplat: Fewer Gaussians, Better Splats

Jun 3

ByAlexander Veicht, Sunghwan Hong, Dániel Baráth, Marc Pollefeys

フィードフォワード型3Dガウシアンスプラッティング手法は、ポーズ付きまたはポーズなしの画像から単一のフォワードパスでシーンを再構成するが、現行のアプローチでは入力画素ごとに一つのガウシアンを予測するため、表現の予算がシーンの複雑さではなくカメラ解像度に依存する。平らな壁と豊かなテクスチャを持つ物体は、幾何学的要件が大きく異なるにもかかわらず、同数のガウシアンを生成する。本稿では、ガウシアンの配置を画素グリッドから切り離す、トークンベースのフィードフォワードモデルであるZipSplatを提案する。マルチビューバックボーンが高密度の視覚トークンを抽出し、k-meansクラスタリングがそれらをコンパクトなシーントークンの集合に圧縮する。クロスアテンションとセルフアテンションがこれらのトークンを洗練し、軽量なMLPが各トークンを3D位置に制約のないガウシアングループにデコードする。クラスタリングを推論時に適用するため、単一の学習済みモデルが再学習なしで品質と効率のトレードオフ曲線をカバーする。ZipSplatは正解ポーズや内部パラメータなしで動作するが、DL3DVおよびRealEstate10Kにおいて、画素対応手法よりも約6倍少ないガウシアンで新たな最先端を達成し、それぞれ最良のポーズフリーベースラインをPSNRで2.1dB、1.2dB上回る。さらに、Mip-NeRF360およびScanNet++に対してゼロショットで汎化し、全ての比較可能なベースラインを凌駕する。プロジェクトページはhttps://veichta.com/zipsplatである。

KletterMix: 高品質なドイツ語事前学習データを目指して
KletterMix: Climbing Toward High-Quality German Pretraining Data

Jun 2

ByMaurice Kraus, Ruben Härle, Sebastian Sztwiertnia, Abbas Goher Khan, Mehdi Ali, Michael Fromm, Kristian Kersting

高品質な事前学習データは現代の言語モデルにおいて中心的な要素であるが、ドイツ語リソースは英語のそれと比較して著しく発展が遅れている。ドイツ語のリソースは、多くの場合、規模が小さく、丁寧にキュレーションされておらず、文書化も不十分であり、制御されたトレーニング実験による検証もほとんど行われていない。我々は、言語モデルの事前学習およびアニーリング用の高品質なドイツ語コーパスであるKletterMixを紹介する。これは、自然言語処理およびモデリングコミュニティ向けの再利用可能なデータセット成果物として設計されている。KletterMixは、最先端の英語事前学習コーパスをドイツ語に翻訳し、文書の境界、メタデータ、ソース構造、トピックの多様性を保持することで構築されている。この構築方法により、現代の事前学習データセットと同等の規模と多様性を持つドイツ語コーパスが得られると同時に、英語のソースとの直接比較が可能となる。我々は、翻訳品質、文書長分布、トピックカバレッジ、ソース構成、地理的メタデータなど、コーパスレベルの広範な分析を通じてデータセットを文書化する。COMETKiwiを用いて、翻訳された文書が多様なドメインにわたって高い品質を達成していることを示し、注意深い翻訳によって元のコーパスの意味的・文体的豊かさの多くが保持されうることが示唆される。データセット構築に加えて、KletterMixをトレーニングデータとして評価する。確立されたドイツ語コーパスとの比較による制御された事前学習およびアニーリングアブレーションを通じて、KletterMixで学習されたモデルがドイツ語の下流評価において測定可能な改善を達成することを示す。これらの結果は、注意深くキュレーションされた翻訳データがドイツ語事前学習データのエコシステムを大幅に強化できることを実証している。

AutoLab: フロンティアモデルは長期にわたる自動車研究およびエンジニアリングタスクを解決できるか？
AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

Jun 3

ByZhangchen Xu, Junda Chen, Yue Huang, Dongfu Jiang, Jiefeng Chen, Hang Hua, Zijian Wu, Zheyuan Liu, Zexue He, Lichi Li, Shizhe Diao, Jiaxin Pei, Jinsung Yoon, Hao Zhang, Mengdi Wang, Radha Poovendran, Misha Sra, Alex Pentland, Zichen Chen

科学・工学的進歩は、本質的に長期的な反復プロセスである。すなわち、変更を提案し、実験を実行し、成果を測定し、成果物を継続的に改良していくことである。しかし、現存する最先端モデルのベンチマークは主に単一ターンの応答か、短期間のエージェント軌跡を評価するにとどまり、長期にわたる持続的な反復改良の課題を捉えきれていない。このギャップを埋めるため、我々はAutoLabを導入する。AutoLabは、超長期間のクローズドループ最適化を対象とした新しいベンチマークである。AutoLabは、システム最適化、パズル・チャレンジ、モデル開発、CUDAカーネル最適化という4つの多様な領域にわたる、専門家が厳選した36の現実的なタスクで構成される。各タスクは、正しいが意図的に準最適なベースラインから始まり、エージェントは厳格なウォールクロック予算内でそれを改善するよう求められる。17の最先端モデルを評価した結果、成功の主な予測因子はエージェントの初期試行の質ではなく、ベンチマークの反復実行、編集、経験的フィードバックの取り込みにおける持続性であることが明らかになった。claude-opus-4.6は強力な長期最適化能力を示す一方、複数のプロプライエタリモデルを含むほとんどの最先端モデルは、早期に終了するか、最小限の進歩で予算を使い果たしている。これらの結果は、自律エージェントにおける時間認識と持続的な反復の重要性を強調するものである。我々は、真に長期的な能力を持つエージェントへの研究を加速するため、ベンチマーク全体、評価ハーネス、タスク成果物をオープンソース化する。

WebRISE: MLLM生成Webアーティファクトのための要求誘導型状態評価
WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

Jun 2

ByYuxin Meng, Yuhan Suo, Junjie Wang, Yuhan Sun, Yiyao Yu, Ruixu Zhang, Ruining Hu, Yubin Wang, Shouwei Ruan, Bin Wang, Yuxiang Zhang, Yujiu Yang

MLLMが生成するWebアーティファクトに対する既存のベンチマークは、局所的な証拠を通じてインタラクションを評価するが、ページの動作を決定する要求誘発状態と遷移を見落としている。我々はWebRISEを提案する。これは、タスク要求を実装非依存のブラウザ実行のための観測可能な状態、ユーザー意図遷移、DOM/ビジュアルアサーションからなるインタラクション契約グラフ（ICG）にまとめるものである。WebRISEは、5つの入力モダリティ（テキスト、マークダウン、スケッチ、画像、動画）にわたる442タスクを対象とし、5,495の遷移と5,271の要件チェックを含み、ユーザーが明示した機能と暗黙的なプロダクトレベルの制約を区別する。14のMLLMにおいて、最も強力なモデルでも遷移有効性は65.6%、要件カバレッジは66.3%に留まり、視覚品質は動作の代理指標とはならない（マークダウンにおけるQwen3.6-35B-A3B：V=80.8、T=15.5）。動画は最も強いインタラクション信号を与える（テキスト比+10.6ppの暗黙カバレッジ）一方、暗黙的制約は依然として残る。欠陥注入実験では、ICGベースのスコアリングがチェックポイント方式の評価よりも2～16倍の割合で状態エラーを検出することが示された。

AUDITFLOW: 構造化財務報告検証のための実行可能なシンボリック環境
AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

Jun 2

ByYan Wang, Xuguang Ai, Jaisal Patel, Xueqing Peng, Fengran Mo, Yupeng Cao, Haohang Li, Mingyu Cao, Lingfei Qian, Víctor Gutiérrez-Basulto

構造化財務監査の検証は言語モデルエージェントにとって困難である。なぜなら、その正確性はテキストのみならず構造化された証拠に依存するからである。モデルは報告された事実をタクソノミ概念に結び付け、計算次元関係を辿り、監査ルールを適用する前に期待値を再計算しなければならない。本稿では、適応的探索と決定的検証を分離するグラフ基盤型マルチエージェントフレームワーク「AuditFlow」を提案する。AuditFlowは、静的US-GAAPタクソノミグラフと動的XBRL提出グラフからシンボリック環境を構築し、事実検索、タクソノミ探索、数値チェック、ルール評価のための型付きツールを通じてこれを公開する。2名のジュニア監査人が各事例を規制観点と証拠観点から調査し、シニア監査人が意見の相違を解決し、さらなる調査を依頼する。最終報告書は証拠集約により融合され、監査判定、期待値、証拠の連鎖、信頼性スコアを生成する。FinAuditing由来のFinMRサンプルにおいて、AuditFlowはGPT-5.5下で82.09%の合同監査精度を達成し、最強のベースラインを14.93ポイント上回った。決定的チェックを除去すると精度は17.91%に低下し、シンボリック環境がモデルでは確実に代替できない検証ステップを実行していることが示された。

GRAIL: 3Dアセットとビデオ事前情報からの人型ロボット移動操作の生成
GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

Jun 3

ByTianyi Xie, Haotian Zhang, Jinhyung Park, Zi Wang, Bowen Wen, Jiefeng Li, Xueting Li, Qingwei Ben, Haoyang Weng, Yufei Ye, David Minor, Tingwu Wang, Chenfanfu Jiang, Sanja Fidler, Jan Kautz, Linxi Fan, Yuke Zhu, Zhengyi Luo, Umar Iqbal, Ye Yuan

人型ロボットの移動操作をスケーリングするには、多様な物体、全身動作、シーン形状にわたるロボット互換のデモンストレーションが必要であるが、遠隔操作やモーションキャプチャは、各収集が物理的セットアップ、計測器を装着した被験者、ロボット操作に依存するため、スケーリングが困難である。我々はGRAILを提案する。これは展開まで完全に仮想的なままのデジタル生成パイプラインであり、3Dアセット、シミュレータ対応シーン、動画基盤モデル（VFM）からの事前知識を組み合わせて、物理環境を再構築したりロボットを遠隔操作したりすることなくインタラクションを合成する。制約のない実環境動画を再構成する代わりに、GRAILは完全に指定された3D構成から開始する。この構成では、物体の形状、カメラパラメータ、メートルスケール、環境深度、およびロボットと同寸のキャラクタが動画生成前に既知であり、再構成時に再利用される。この特権的な設定は4次元復元をより良好に条件付け、モデルベースの物体追跡、人間動作推定、およびインタラクションを考慮した最適化を可能にし、深度の曖昧さと形態の不一致を低減したメートル単位の4次元人-物体インタラクション（HOI）軌道を再構成する。復元された動作を人型ロボットにリターゲティングし、補完的なタスク汎用トラッカー、すなわち操作のための物体認識潜在アダプタと地形移動のためのシーン認識トラッカーを訓練する。GRAILは、ピックアップ、物体操作、着座、地形移動にわたる20,000以上のシーケンスを生成する。GRAILが生成したデータのみを使用して、シミュレーションから実世界へのパイプラインを通じて自己中心視覚ポリシーを訓練し、Unitree G1人型ロボットに展開した結果、多様な物体のピックアップで84％、階段昇降で90％の実世界成功率を達成した。

BraveGuard: オープンワールドの脅威からより安全なコンピュータ操作エージェントへ
BraveGuard: From Open-World Threats to Safer Computer-Use Agents

Jun 2

ByYunhao Feng, Xiaohu Du, Xinhao Deng, Yifan Ding, Ming Wen, Yixu Wang, Yuxiang Xie, Baihui Zheng, Yingshui Tan, Yige Li, Yutao Wu, Kerui Cao, Wenke Huang, Yanming Guo, Xingjun Ma, Yu-Gang Jiang

コンピュータ利用エージェントは、言語モデルをテキスト生成からファイル、端末、ブラウザ、外部ツールとの持続的なインタラクションへと拡張する。この移行により、個々の動作は局所的には無害に見えるものの、害が多段階の実行痕跡を通じて初めて顕在化するため、単独のプロンプトや最終応答からは検出が困難な安全性リスクが生じる。本稿では、オープンワールドの脅威シグナルと現実的なエージェント軌跡からガードモデルを訓練する自己進化的防御フレームワーク「BraveGuard」を提案する。BraveGuardは最新の研究ソースから新興リスクや攻撃パターンを特定し、それらを実行可能なコンピュータ利用タスクとして具体化し、エージェントのロールアウトを収集し、軌跡レベルの監視信号を導出してガードモデルの訓練に活用する。新たな脅威や検証の失敗が出現するたびにパイプラインを反復可能であり、静的でベンチマーク駆動型の訓練プロセスではなく、適応的な防御ループを実現する。本稿では、Qwen3-GuardやLlama-Guardの派生モデルを含む複数のガードバックボーンを訓練し、得られたガードモデルを軌跡レベルのエージェント安全性ベンチマークで評価する。BraveGuardはコンピュータ利用軌跡全体にわたって安全性検出を一貫して改善する。AgentHazardにおいては、既製のガードモデルと比較して検出精度が大幅に向上し、平均化ガードモデル設定では38.79%から82.38%に精度が上昇した。これらの結果は、オープンワールドの脅威発見と現実的なエージェント実行に基づくガード監視が、固定された分類体系や合成プロンプトレベルのデータを超えて安全性監視を改善できることを示している。BraveGuardは、進化する実世界リスクに直面するコンピュータ利用エージェントに対する適応的防御へのスケーラブルな道筋を提供する。

BenchEvolver: 解決中心進化によるフロンティアタスク合成
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

May 31

ByYangzhen Wu, Aaron J. Li, Wenjie Ma, Li Cao, Ziheng Zhou, Mert Cemri, Shu Liu, Yuran Xiu, Chenxiao Yan, Haikun Zhao, Bin Yu, Ion Stoica, Dawn Song

最先端の大規模言語モデルの急速な進歩により、ベンチマーク飽和が広く発生している。これにより、既存のデータセットがモデルの能力を区別したり、有用な訓練信号を提供したりする能力が制限されている。例えば、LiveCodeBenchにおいて、最先端モデルはEasy分割で99%以上のPass@1を達成し、難易度全体の平均で90%を超えるPass@1を示している。新たな挑戦的なデータセットを構築するには通常、多大な人的努力が必要であり、進歩のボトルネックとなっている。我々はBenchEvolverを導入する。これは、既存のコーディング問題を自動的により困難な変種へと進化させる、解決策中心の進化的フレームワークである。BenchEvolverは問題をゼロから生成するのではなく、構造化された変換を通じて参照解決策を進化させ、その進化した解決策から対応する問題文とテストを導出する。この設計は生成を実行可能な意味論に基づかせ、検証可能な正しさを備えた高品質で多様かつ困難なタスクのスケーラブルな構築を可能にする。BenchEvolverをLiveCodeBenchとSciCodeに適用したところ、有効性、参照解決策の正しさ、多様性を維持しつつ、大幅に困難な進化タスクが得られた。さらに我々はLiveCodeBench-Plusを厳選した。これは進化タスクと難易度の高いオリジナルのLCB-v6タスクを組み合わせた91問題のベンチマークであり、最先端モデルのPass@1は27.5%から62.6%の範囲となり、強力なコーディングモデル間で明確な識別力を回復する。重要なことに、進化タスクはそれを生成したモデルにとっても困難であり続け、自己改善を可能にする。さらに、進化したLCBタスクでの強化学習が、保持されたコーディング性能を向上させることを示す。gpt-oss-20bにおいて、シード+進化訓練はLCB v6 HardおよびLCB-Pro Easyでそれぞれ+8.7および+8.3のPass@1向上を達成し、シードのみの向上をそれぞれ70.7%および34.8%上回った。これらの結果は、BenchEvolverが飽和したベンチマークを最先端レベルの評価スイートおよび再利用可能な訓練信号に変換できることを示している。

心の経済：経済的相互作用を伴うマルチエージェント知能の創発
Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Jun 1

ByZhenting Qi, Huangyuan Su, Ao Qu, Chenyu Wang, Yu Yao, Han Zheng, Kushal Chattopadhyay, Guowei Xu, Zihan Wang, Weirui Ye, Vijay Janapa Reddi, Ju Li, Paul Pu Liang, Himabindu Lakkaraju, Sham Kakade, Yilun Du

分散型制御なしで、エージェント群がどのように自己組織化・自己適応し、より強力な集合知へと進化できるのか。フリードリヒ・ハイエクの市場における分散型調整に関する経済理論に着想を得て、本研究では「エージェント経済」を通じてこの問いを探求する。この経済システムでは、エージェントが行動権をめぐって競売で競い合い、支払いを交換し、環境からの報酬によって富を蓄積する。これらの単純な経済シグナルは分散型クレジット割り当てを誘発し、グローバルな統制や明示的な通信プロトコルなしに計画を推進する。集団は経済的淘汰を通じて進化する。すなわち、有効なエージェントは富を蓄積し、活用によって突然変異を起こす一方、非効率なエージェントは破綻し、探索によって置き換えられる。弱いエージェントから始めた場合、この経済システムは創発的なマルチステップ推論戦略を生み出し、数理論証、金融調査、科学研究、加速器設計、分散システム最適化を含む5つのエージェント型タスクにおいて、強力な単一アーキテクチャのベースラインを上回る性能を示すことを明らかにした。さらに、経済的ダイナミクスがエージェントの行動をどのように形成するかについて理論的洞察を提供し、局所的なインセンティブと長期的なグローバル性能を結びつける。本研究の結果は、マルチエージェント知能への新たな道筋を示唆する。すなわち、協調を設計するのではなく、それが自動的に創発するような分散型インセンティブ構造を設計できるのである。

ニューラルネットワークは群の合成に対するスペクトル表現を証明可能に学習する
Neural Networks Provably Learn Spectral Representations for Group Composition

Jun 2

ByJianliang He, Leda Wang, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang

ニューラルネットワーク訓練中に構造化された内部表現がどのように出現するかを理解することは、深層学習研究の中心課題である。本研究では、有限群Gの元に対してg_1★g_2を予測するよう訓練された2層ニューラルネットワークを通じて、この現象を群合成課題において調査する。射影勾配流をフーリエ領域に持ち上げることで、訓練力学が表現論的なエネルギー汎関数に関するリーマン勾配上昇法によって支配されることを示す。ランダム初期化の下で、この流れが各ニューロンをほぼ確実に単一の既約表現へと収束させ、一方で層間フーリエ係数が回転的なランク1整列を達成することを証明する。本枠組みは特徴学習の表現論的説明を提供し、行列値群表現に対する新たな低ランク圧縮現象を特徴づける。さらに、アーベル群に対しては完全な母集団レベルの記述を与える：ランダム初期化は非自明な表現全体にわたる一様な多様化を促進し、Haar一様位相を誘導し、多数決メカニズムを通じてインジケータを共同近似する。位相整列と表現競合がいずれも指数収束率で出現することをさらに証明する。

アクセスセットの重要性：スケーラブルな重み空間モデルマージのためのエキスパート読み取りの予算化
Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging

May 28

ByYuanyi Wang, Yanggan Gu, Su Lu, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

重み空間モデルマージは通常、チェックポイントに対する代数的操作として定式化されるが、LLM規模では制限リソースは多くの場合、読み取りが必要なエキスパート重みの集合である。我々はMergePipeを提案する。これは、LLMマージをエキスパートアクセス集合問題として捉える予算認識実行層であり、共有重み座標系におけるマージ演算子とチェックポイントファミリが与えられたとき、明示的なI/O予算の下でどのエキスパート差分ブロックにアクセスするかを選択する。MergePipeはパラメータブロックをインデックス化し、決定論的アクセス計画を構築し、再生可能なマニフェストを用いて誘導された予算制約マージを実行する。この計画は構築により予算整合的であり、全予算では全読み込みマージを再現する。固定係数加算演算子の場合、省略更新誤差は省略された差分のノルムによって制限される。QwenおよびLlamaのマージワークロードにおいて、MergePipeはエキスパート読み込みI/Oを最大1桁削減し、最大11倍の高速化を達成する。代表的な予算スイープでは、全読み込みマージからのパラメータ偏差がO(10^{-3})であり、下流ベンチマークでの単調劣化は見られない。

STRIDE: 部分集合摂動からのスパース復元による訓練データ帰属
STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

Jun 3

ByRishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin

訓練データ帰属（TDA）は、モデルの予測を訓練データにまで遡って追跡することを目的とする。TDAの黄金基準は因果的介入に依拠し、データの追加や削除時にモデルがどのように変化するかを観察するが、大規模言語モデル（LLM）にとって繰り返しの再学習は計算負荷が高い。そのため、ほとんどの手法では勾配を用いてパラメータ空間におけるこの効果を近似する。しかし、数十億のパラメータにわたる勾配の追跡は、法外なコストがかかるだけでなく、局所近似に依存する。本研究では、パラメータ変化の推定ではなく、活性化空間における訓練データの機能的効果をモデル化するという転換を提案する。我々は、STRIDE（Steering-based Training Data Influence Decomposition）を導入する。これは、TDAを圧縮センシングの精神に基づくスパース復元問題として定式化するフレームワークである。STRIDEは、データサブセットでの訓練によって引き起こされる振る舞いの変化を模倣する軽量な「ステアリング演算子」を学習する。これらの演算子がテスト予測をどのように摂動させるかを測定することで、スパース線形分解を介して個々の訓練例の影響を復元する。STRIDEは、LLM事前学習の帰属において最先端の性能を達成しつつ、従来手法よりも一桁（13倍）高速である。さらに、データ選択、データ汚染、質的分析を含む下流アプリケーションを通じて、その実用的有用性を検証する。

DAR: エージェント的ハーネスによる義務論的推論
DAR: Deontic Reasoning with Agentic Harnesses

Jun 3

ByGuangyao Dou, William Jurayj, Nils Holzenberger, Benjamin Van Durme

義務推論とは、特定の事例の事実に対して明示的なルールやポリシーを適用することで質問に答えるタスクであり、例えば税法に基づく税額の計算や、移民控訴の結果の判断などが該当する。LLMを用いた義務推論における主要な技術的課題は、関連するルールセットが長大かつ相互参照的であるため、特定の推論ステップに必要なルールをモデルが適切に特定できない可能性があることである。本稿では、モデルがオンデマンドで法令と対話するエージェンティック推論設定である、Deontic Agentic Reasoning（DAR）を提案する。我々は、DeonticBenchの困難なサブセットに対して、複数のハーネスを用いてDARを評価する。これらの設定において、エージェンティックハーネスが義務推論タスクのフロンティアを押し広げる可能性がある一方、その改善は一様ではないことが判明した。すなわち、弱いモデルは数値タスクにおいて性能が低下することが多く、その際に大幅に多くのトークンを消費する。

標準模擬患者症例を用いた動的臨床意思決定における大規模言語モデルの評価
Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Jun 3

ByCheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie

大規模言語モデル（LLMs）が臨床エージェントとして提案される機会が増えているが、静的で単一ターンのベンチマークでは、モデルが診療のやり取りを通じて動的にケアを提供する様子（情報収集、治療計画の立案、連続する患者状態に応じた長期的管理の適応）を捉えることができない。医学教育は長年にわたり、模擬患者（SPs）、すなわち訓練された俳優が臨床症例を一貫して演じ、現実的な練習と客観的かつ台本に基づく評価を可能にする手法を通じて、同様の課題に取り組んできた。本稿では、臨床エージェント評価のためのSP由来の対話型ベンチマークであるMedSP1000を紹介する。これには1,638件のSP症例と24,602件の軌跡レベルの査読付き評価基準が含まれる。MedSP1000は、査読済みのSP教育用症例を、定義されたSP症例台本、臨床環境コンテキスト、および人間が検証した構造化評価基準を備えた実行可能なシナリオに変換する。各シミュレーション評価の実行では、臨床エージェントが患者エージェントおよび環境コントローラと閉ループで対話し、その行動は元の資料に指定された専門家基準に照らして診療のやり取り全体を通じて採点される。MedSP1000を汎用および医療特化型の様々なLLMに適用した結果、静的ベンチマークでの性能がこうした教育シナリオに確実に転用されるわけではないことが判明した。最良のモデルであるGPT-5.5でも、専門家が定義した評価項目の60.4%しか達成できず、最も強力な医療特化型モデルでも40.0%に留まった。テスト時計算量を増やしても測定可能な改善は見られなかった。これらの結果は、医療に調整されたエージェントシステムを含む現在のLLMが、実際の臨床診療に安全に統合できるほど信頼性が高くないことを示唆している。さらに広く言えば、MedSP1000は、プロセスレベルのSP形式評価が、単一ターンのベンチマークでは見逃される臨床的に関連する障害モードを明らかにできることを示している。

OpenSTBench: 音声翻訳における意味評価を超えて
OpenSTBench: Beyond Semantic Evaluation for Speech Translation

May 29

ByYanjie An, Yuxiang Zhao, Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen

音声翻訳システムは、音声-テキスト翻訳（S2TT）、音声-音声翻訳（S2ST）、オフライン翻訳、およびストリーミング生成にますます拡大しており、モダリティ、音声実現、およびタイミング動作において異なる出力を生成する。既存の評価手法では、翻訳品質、音声品質、時間的品質などの重要な側面を評価するが、これらの側面は個別のプロトコルで評価されることが多く、異種システムを包括的に比較することが困難である。このギャップに対処するため、我々はOpenSTBenchを提案する。これは、異種の音声翻訳出力を共通の評価形式に整理する統一された多次元評価フレームワークである。OpenSTBenchは、オフラインおよびストリーミング設定におけるS2TTおよびS2STシステムの両方をサポートし、翻訳品質、音声品質、話者保存性、感情およびパラ言語的忠実度、時間的一貫性、および遅延を統合的に評価する。代表的な音声翻訳システムを用いた実験を通じて、翻訳品質が高いシステムであっても、音声品質や時間的品質において大きく異なる場合があることを示す。OpenSTBenchは、これらの次元間の差異を分析し、音声翻訳システムの応用指向の比較を支援するための再現可能なプロトコルを提供する。コードとデータセットはhttps://github.com/sjtuayj/OpenSTBenchで入手可能である。

大規模なゲート付きデルタネットワークにおける特徴学習の実現
Unlocking Feature Learning in Gated Delta Networks at Scale

Jun 2

ByYifeng Liu, Quanquan Gu

大規模言語モデルの学習とスケーリングには膨大な計算資源が必要であり、効率的な準二次アーキテクチャと原理に基づいたハイパーパラメータ調整手法の両方が動機付けられる。最大更新パラメータ化(μP)は標準的なTransformerに対してゼロショットハイパーパラメータ転送を可能にしてきたが、その線形モデル、特に構造化状態遷移と複雑なアーキテクチャを持つモデルへの拡張は、ほとんど未開拓のままである。順伝播、ゲーティング機構、リカレント状態ダイナミクスを通じて座標サイズ推定を厳密に伝播させることにより、Gated Delta Networkのスケーリング則を導出する。言語モデルの事前学習実験により、我々の構成がAdamWおよびSGDの両方においてモデル幅全体で安定した学習率転送を可能にし、標準パラメータ化では転送が失敗することが確認され、我々の分析の正確性と実用的有用性が検証された。

Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

May 28

ByCiara Rowles, Reshinth Adithyan, Nikhil Pinnaparaju, Vikram Voleti, Mark Boss

We present Stable-Layers, a reinforcement learning framework that eliminates the need for paired supervision by fine-tuning a pretrained layer decomposition model using only feedback from a vision-language model (VLM). Starting from Qwen-Image-Layered, we apply Flow-GRPO with LoRA adaptation, sampling multiple candidate decompositions per image, scoring them with a VLM, and optimising the policy from group-relative advantages. The key challenge lies in designing a reliable reward signal: VLMs scoring samples in isolation tend to compress their judgements into a narrow band, leaving GRPO with little within-group variance to learn from. We address this with a two-stage evaluation pipeline that pairs structured per-sample scoring across five edit-centric criteria with a grid-based calibration step in which the VLM re-scores all candidates side-by-side. Stable-Layers produces decompositions with stronger layer separation, fewer blank or artifact-heavy layers, and lower per-layer reconstruction error on the Crello dataset compared to the base model.

PaintBench: 精密な視覚編集の決定論的評価
PaintBench: Deterministic Evaluation of Precise Visual Editing

May 29

ByKai Xu, Ellis Brown, Shrikar Madhu, Rob Fergus, He He, Saining Xie

現在のマルチモーダルモデルは自由形式のビジュアル編集に長けている一方で、正確な単一回答の編集を実行することは依然として重要な障壁である。この課題を探求するため、我々はPaintBenchを導入する。これは、幾何変換、構造操作、色変更、記号推論の4カテゴリにわたる20の基本的な精密ビジュアル編集操作を対象とした動的にスケーラブルなベンチマークである。構成可能な複雑性を持つ手続き的生成により、実質的に無限で汚染耐性のある評価スイートが可能となり、決定論的なピクセルレベル評価はバイアスを生じやすい判定モデルへの依存を排除する。11の画像編集モデル全体で、全体的に低い性能が見られ、現在最高性能の業界リーダーでもスコアはわずか17.1%（mIoU）であった。タスク分解により、特に困難な操作タイプ（幾何変換、ほとんどの構造操作、数式ベースの色変更）とモデル固有の専門化が明らかになった。さらに、詳細なベンチマーク診断により、オブジェクト数、背景の複雑さ、配色、編集領域サイズにおけるシーン変動によって引き起こされる性能低下が示された。PaintBenchスコアの応用タスク性能への一般化をテストするため、データ可視化編集（TinyGrafixBench）に対する手続き的かつ決定論的な評価を作成し、PaintBenchスコアとの強い線形相関（R^2 = 0.91, p < 0.001）を確認した。総じて、PaintBenchは精密なマルチモーダルビジュアル編集における進歩を測定し推進するための厳密な基盤を提供する。

Agent libOS: ライブラリOSに着想を得た、長期稼働・能力制御型LLMエージェントのためのランタイム
Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

Jun 2

ByYingqi Zhang

大規模言語モデル（LLM）エージェントは、リクエスト応答型アシスタントから長時間稼働するソフトウェアアクターへと進化している。すなわち、モデル呼び出し間での状態保持、サブタスクのフォーク、外部イベントの待機、人間による承認の要求、ツールの生成、そして再開と監査が必要な副作用の実行を行う。本稿では、LLMエージェント向けのライブラリOSに着想を得たランタイム基盤であるAgent libOSを提案する。Agent libOSは従来のホストオペレーティングシステム上で動作し、ハードウェアドライバ、カーネルモードの分離、POSIX互換のオペレーティングシステムを実装しない。代わりに、エージェントをAgentProcessとして扱う。AgentProcessは、プロセスID、親子関係、ライフサイクル状態、AgentImageから派生したツールテーブル、型付きオブジェクトメモリ、明示的なケイパビリティ、人間用キュー、チェックポイント、イベント、監査レコードを備えたスケジュール可能な実行主体である。その中心的な設計規則は、ツールはlibcに類似したラッパーであり、ランタイムプリミティブが権限境界となることである。ファイルシステムアクセス、オブジェクトアクセス、スリープ、人間による承認、JITツール登録、外部副作用は、明示的なケイパビリティとポリシーの下でプリミティブ境界においてチェックされる。本稿では、設計、脅威モデル、Pythonプロトタイプ、安全性重視の評価を記述する。現在のプロトタイプは、非同期スケジューリング、名前空間ローカルのオブジェクトメモリ、ランタイム統合型の人間による承認、1回限りの許可付与、プロセスごとのワーキングディレクトリ、シェルおよびイメージ登録プリミティブ、libOSシステムコールブローカーを介したDeno/TypeScript JITツール、ファイルシステム/オブジェクトブリッジツール、注入可能なリソースプロバイダ基盤、決定論的デモ、実モデルスモークスクリプト、執筆時点で123の回帰テストを実装している。Agent libOSはプランナーの精度を向上させるのではなく、ツールディスパッチを信頼境界とせずに長時間稼働するLLMエージェントをスケジュール、承認、再開、監査できるランタイム基盤を示すものである。

SpatialAct: 3DシーンにおけるVLMエージェントの空間推論から行動への能力の検証
SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

May 29

ByTianhui Liu, Jie Feng, Zhiheng Zheng, Shengyuan Wang, Yiming Guo, Yanxin Xi, Hangyu Fan, Yong Li, Pan Hui

人間は、日常的な3次元環境において、空間配置を容易に知覚し、認知的表象を形成し、空間的関係について推論し、その推論を行動に変換することができる。近年の視覚言語モデル（VLM）は、観測に基づく空間知覚および推論タスクにおいて有望な性能を示しているが、一貫した空間理解を構築し、それに基づいて行動し、マルチターン・フィードバックを通じて行動を洗練できるかどうかは依然として明らかではない。この問題を研究するため、我々は3Dシーンにおける行動条件付き空間推論を探るためのシミュレータ基盤ベンチマークであるSpatialActを導入する。最も困難な設定であるマルチターン・インタラクティブ・リファインメントから始め、さらにその分解版として、単一ステップのエラー検出と修正、およびモデル障害の根本原因を診断するための5つの基本的な空間能力タスクを設計した。実験により、明確な推論と行動のギャップが明らかになった。すなわち、現在のVLMは個別の空間推論タスクでは良好に機能するが、マルチターン・フィードバックにおいて一貫した空間的信念を維持し信頼性のある行動を生成することに苦戦し、人間に大幅に劣る。これらの結果は、現在のVLMエージェントは、低レベルの制御が抽象化されている場合でも、行動誘発性の環境変化下での頑健な空間状態追跡が欠如していることを示唆している。

LLMのリスク判断における結果レベルの類似性とメカニズムレベルの整合性の検証：サンクトペテルブルクゲームを用いた証拠
Probing Outcome-Level Resemblance and Mechanism-Level Alignment in LLM Risk Decisions: Evidence from the St. Petersburg Game

Jun 3

ByChensong Huang, Changyu Chen, Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

LLMはリスク意思決定タスクにおいて慎重に見えることがあるが、注意深く見える出力が必ずしも人間の意思決定メカニズムとの整合性を示すわけではない。本稿ではこの区別を、サンクトペテルブルクゲームを制御可能なテストベッドとして用いて検討する。このゲームは古典的なパラドックスであり、期待利得は無限大であるにもかかわらず、人間は通常、低く有限な支払意思額を示す。我々は28のLLMを評価するため、構造化されたプロンプト群を用いた。これには、オリジナルゲーム、打ち切り・反復プレイ・数値的初期保有額・職業的アイデンティティを摂動させる制御された決定バリアント、モデルに人間の意思決定者として推論させる人間視点プロンプト、そしてベースモデルとその指示チューニング版とのペア比較が含まれる。オリジナルゲームでは、ほとんどのモデルが有限の入札額を生成し、人間らしいリスク行動のように見える。しかし、この結果レベルの類似性は、メカニズムレベルの大きな差異を覆い隠している。制御されたバリアントは、オリジナルゲームで見られた人間らしい行動を維持する代わりに、モデルが条件付きかつ計算論的に合理的な行動へと移行することを明らかにする。人間的手がかりのプロンプトや指示チューニングは、しばしば入札額を低下させ、一部の目に見える病理を軽減するが、メカニズムレベルの反応パターンのほとんどはほとんど変わらない。これらの知見は、リスク意思決定における行動の整合性が表面的なものにすぎない可能性を示している。すなわち、LLMは人間と一致するメカニズムを示さずに、人間らしいリスク決定を生成することがある。したがって、LLMの意思決定に対するハイステークスな評価は、結果の類似性を超え、その整合性がメカニズムレベルの一貫性によって支えられているかを検討すべきである。

代数保存型クープマン学習のための深層埋め込み乗法的DMD
Deep Embedded Multiplicative DMD for Algebra-Preserving Koopman Learning

Jun 3

ByKelan Gray, Finlay Brown, Nicolas Boullé, Matthew J. Colbrook

Koopman理論は非線形力学を線形スペクトル問題に変換する。しかし、計算においてはすべてが困難な有限次元の選択に依存する。すなわち、観測量は表現力豊かで、力学の下でほぼ不変であり、理想的には合成と互換性がある必要がある。深層Koopman法は柔軟な座標を学習するのに対し、構造保存法は固定された辞書に対して演算子の恒等式を強制する。我々はこれらのアイデアを組み合わせ、Deep Embedded Multiplicative Dynamic Mode Decomposition（DeepMDMD）を導入する。この手法は潜在空間とその分割を学習すると同時に、Koopman積則を厳密な代数的制約として強制する。学習は、厳密な乗法的演算子更新と、Koopman閉包を促進する微分可能な潜在クラスタリングステップを交互に行う。その結果、学習された潜在セル上の有限遷移写像が得られる。その非零スペクトルは単位円上にあり、辞書は周辺幾何学ではなく力学によって形成され、予測は潜在座標で行われた後、物理空間に復号される。ハミルトン系、カオス系、流体の例にわたって、DeepMDMDは幾何学的MDMD分割によって生成されたものよりもはるかにコンパクトで動的にコヒーレントな辞書を学習する。スペクトル汚染を低減し、より豊かな連続スペクトル構造を明らかにし、激しいノイズ下でも安定した予測を提供する。158,624次元の円柱後流やノイズを含むRe=20,000の蓋駆動キャビティなどの高次元流れにおいて、状態空間MDMDが失敗する場面で、コヒーレント構造と長時間のスペクトル統計を保存する。これらの結果は、Koopman学習の実用的なルールを示唆している。すなわち、座標を学習し、代数を制約せよ。

MeshWeaver: スパースボクセル誘導による表面織りを用いた自己回帰メッシュ生成
MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation

Jun 3

ByJiale Xu, Wang Zhao, Ying Shan

自己回帰メッシュ生成は、メッシュをトークン列に変換し、言語モデリングの手法でモデルを学習することで注目を集めている。しかし、既存の手法には2つの根本的な限界がある：(i) トークン化効率が低く、結果としてトークン列が長くなり、高ポリゴンメッシュへのスケーリングが妨げられる、(ii) 幾何学的な知識に基づくガイダンスが欠如しており、生成が局所的な表面の手がかりではなく大域的な形状埋め込みにのみ依存している。本稿では、自己回帰フレームワークであるMeshWeaverを提案する。これは、メッシュ生成を表面織り込みプロセスとして捉え、独立した座標ではなく次の頂点を直接予測する。その核心は、マルチレベルのスパースボクセルエンコーダであり、3つの補完的な方法で幾何学的コンテキストを生成プロセスに注入する：頂点表現としてのボクセル特徴の提供、ボクセル特徴へのクロスアテンションによるトークン予測のガイダンス、そして入力表面周辺の生成を制約する構造的足場としての役割である。本階層的設計により、単一の復号ステップでの粗密の頂点予測が可能となり、生成モデルと3次元幾何学との緊密な結合を実現する。広範な実験により、MeshWeaverは18%という最先端の圧縮比を達成し、最大16K面のメッシュを生成可能であり、従来手法に比べて幾何学的忠実度を大幅に向上させることを実証する。

拡散モデルにおけるハルシネーション低減のためのスコア制御
Score-Control for Hallucination Reduction in Diffusion Models

May 29

ByMahesh Bhosale, Naresh Kumar Devulapally, Abdul Wasi, Chau Pham, Vishnu Suresh Lokhande, David Doermann

拡散モデルは、現代の生成AIにおける基盤技術として登場し、画像、言語、音声、その他のモダリティにおける進歩を牽引している。その成功にもかかわらず、これらのモデルはハルシネーション（真のデータ分布のサポート外に位置する非妥当なサンプル）を生じさせ、信頼性と信用を損なう。本研究ではまず、画像生成拡散モデルにおいてスコアの平滑性がハルシネーションを引き起こすという従来の仮説を実証的に確認し、密度ベースの視点を提供する。さらに、ハルシネーションの確率質量を学習されたスコア関数のリプシッツ定数と結びつけることで、この概念を形式化する。この知見に基づき、スコアのヤコビアンを制御する分散誘導型スコア変調（VSM）戦略を導入し、スコアの平滑性を低減し、ハルシネーションを減少させる真のスコアをより良く近似する。合成データセットおよび実世界データセットを用いた実験結果は、本手法が高い忠実性と多様性を維持しつつ、ハルシネーションを最大約25%削減することを示しており、より信頼性の高い拡散モデルベースの画像生成への原理的な一歩を提供する。また、体系的なハルシネーション評価のための、極端な意味的変動を持つ2つのベンチマークデータセットも提案する。コードとデータセットはhttps://github.com/bhosalems/VSMで公開されている。

「グラフトークンがシンクするとき：グラフ言語モデルのメカニスティック分析」
When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models

Jun 2

ByDing Zhang, Runtao Zhou, Wenqing Zheng, Rizal Fathony, Bayan Bruss, Chirag Agarwal

グラフ言語モデル（GLM）は、大規模言語モデル（LLM）をグラフ学習タスクに適応させるための有望な方向性となっている。グラフのトポロジーとノード情報をグラフトークンに変換することで、GLMはLLMが構造化されたグラフ入力とテキスト指示を共同で処理することを可能にする。しかし、LLMがこれらのグラフトークンを内部でどのように解釈するか、またグラフトークンがグラフ構造の意味のある伝達手段として機能するかどうかは不明である。本研究では、代表的なGLMアーキテクチャにおけるグラフトークンの振る舞いを通じて、LLMがグラフ情報をどのように処理するかを分析する。知見。GLMにおけるグラフトークンの内部顕著性は、グラフ情報の活用と同等ではないことがわかった。グラフシンクトークンは活性化レベルの外れ値として一貫して現れる。すなわち、少数の隠れ状態次元に沿った巨大な活性化値によって識別でき、初期のグラフトークン位置に偏っている。しかし、この活性化レベルの顕著性は、これらのトークンがグラフ情報の主要な伝達手段であることを意味しない。言語モデルや視覚言語モデルにおける古典的な注意シンクとは異なり、グラフシンクトークンは必ずしもクエリトークンから最大の注意重みを引きつけるわけではない。刈り込み、再配置、交換の介入を通じて、グラフシンクトークンは下流予測にとって最も重要な意味的または構造的トークンではないことを示す。含意。これらの結果は、現在のGLMがグラフ構造をLLMのトークン空間にマッピングした後、結果として得られるグラフトークン表現が、完全に利用可能なトポロジー認識内部表現を自然に形成しないことを示唆している。代わりに、活性化レベルの顕著性とグラフ意味論的実用性の間に分離が見られる。この分離は、既存のグラフトークンの構築、配置、および調整メカニズムの限界を指摘している。

効率的かつ制御可能なLLM推論のためのエージェンティック・チェーン・オブ・ソート誘導
Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

Jun 2

ByYu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley

大規模言語モデルは、拡張された連鎖思考推論によって最終解答の精度を向上させるが、しばしばトークンを非効率的に消費し、推論時の制御がほとんどできない。既存の効率的推論手法は、推論長を短縮、早期停止、またはトレース圧縮によって制御するが、モデルがどのように推論するかは暗黙のままである。本論文では、推論誘導をマルコフ決定過程として定式化するAgentic Chain-of-Thought Steering（ACTS）を提案する。ここでは、制御エージェントが推論時に凍結された推論器を適応的に誘導する。各ステップにおいて、制御エージェントは推論トレースと残りの思考予算を観測し、推論戦略と次の推論器ステップを開始する誘導フレーズからなる誘導行動を発行する。これにより、推論器の生成連続性を保ちつつ、予算を認識した戦略制御による効率的推論が可能となる。制御エージェントは、複数予算拡張を施した合成誘導軌跡から初期化し、さらに予算条件付き報酬形成による強化学習で最適化する。複数のベンチマークにおける実験により、ACTSは完全推論性能と同程度の性能を達成しつつ大幅なトークン節約を実現し、異なる推論器やタスクにわたって制御可能な精度と効率のトレードオフを可能にすることを示す。コードはhttps://github.com/Andree-9/ACTSで入手可能である。

対称性の測定―データ交換レート
Measuring the Symmetry--Data Exchange Rate

May 31

ByAhmed M. Adly

等変性理論は、アーキテクチャの対称性事前分布がサンプル複雑性を|G|倍減少させることを予測する。この結果は広く引用されているが、その事前分布を交絡因子から分離する制御を伴うスケーリング則として測定されることはまれである。制御されたC_n対称タスクにおいて、我々は三つの知見を報告する。第一に、同一の軌道サイズと一致した計算量を持つ誤群制御は、制約なしよりも悪い結果をもたらす（結合ペアワイズCI [+0.79, +3.26] はゼロを除外し、推定手法間でロバスト）。不整合な制約は単に役に立たないだけでなく、積極的に有害である。第二に、テスト時の軌道平均化を備えたデータ拡張ベースラインは等変モデルと完全に一致する——一致したセル間でエポックごとの検証曲線がビット単位で一致する。したがって、アーキテクチャ対データ拡張のギャップは、非対称なテスト時計算に条件づけられており、無条件ではない。第三に、相対交換率beta_diff = 1.28は、符号とオーダーにおいて理論値1.0と一致する（単一レベルCI [+0.92, +2.05]）。より保守的な二段階ブートストラップ（シード×グループサイズ）では、これが[-0.63, +1.72]に広がり、ゼロを含む。また、sqrt(2)間隔のグリッド上でのより細かいNの再現実験では、決定的でない（点推定値-0.82）。方法論的貢献——共有難易度交絡を打ち消す相対率推定器、誤群制御、および事前指定された失敗分類——は、強度をパラメータ化可能な任意の帰納的バイアスに転用可能である。正直なスコーピング：主要推定器beta_diffは、初期分析で正の傾きの識別可能性問題が明らかになった後、事後的に採用された。この設計は外部に事前登録されたものではなく、見出しの数値は粗いNグリッド上の七つのグループサイズに対するOLS傾きに依存している。これは探索的研究であり、確認的測定ではない。誤群の結果が最も明確な知見であり、我々が最も確信を持って報告するものである。新鮮なシードを用いた登録再現実験は今後の課題である。

半教師ありノイズ適応：ノイズ領域からの知識転移
Semi-Supervised Noise Adaptation: Transferring Knowledge from Noise Domain

May 30

ByYuan Yao, Jin Song, Huixia Li, Tongtong Yuan, Jiaqi Wu, Yu Zhang

転移学習は、ソースドメインから知識を転移することでターゲットドメインの学習を促進することを目的とする。ソースドメインは通常、効果的な知識転移を促進するために、意味的に意味のあるサンプル（例：画像）を含む。しかし、最近の研究では、単純な分布（例：ガウス分布）から構築されたノイズドメインが、ターゲットサンプルのごく一部のみがラベル付けされ、残りのほとんどがラベルなしである半教師あり設定において、代理ソースドメインとして機能できることが観察されている。この驚くべき観察に基づき、我々は「半教師ありノイズ適応（SSNA）」と称する新たな問題を定式化する。これは、合成ノイズドメインを活用してターゲットドメインの汎化を向上させることを目的とする。この問題に対処するため、まずノイズドメインが汎化に与える影響を特徴付ける汎化バウンドを確立し、それに基づいてノイズ適応フレームワーク（NAF）を提案する。広範な実験により、NAFがノイズドメインを効果的に活用してターゲットドメインの汎化バウンドを厳格化し、性能向上につながることが示された。コードは https://github.com/AIResearch-Group/SSNA で入手可能である。

大規模言語モデル、報酬ハッキング、そして社会
Large Language Models Hack Rewards, and Society

Jun 2

ByWei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He

強化学習は、大規模言語モデルが報酬から学習することを可能にする支配的なポストトレーニングパラダイムとなっている。我々は、社会的規制が報酬関数と構造的に類似していることを観察する。それらは測定可能な結果、閾値、例外を定義する一方で、制度上の意図を部分的にしか明示しないことが多い。我々は、強化学習のトレーニングプロセスがこれらのギャップを悪用する可能性があると仮説を立て、そのため、強化学習中にモデルが報酬関数をハッキングするよく知られた傾向が、より重大な失敗モードである「社会的ハッキング」、すなわち社会が運営されるルールの抜け穴を発見することに拡張されうるかどうかを問う。この現象を研究するために、我々は72の社会的環境からなるサンドボックスであるSocioHackを導入し、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることを確認した。モデルは社会的ルールをハッキングすることを学習し、技術的には準拠しつつ規制の意図を無効にする戦略を生成する。また、現在の大規模言語モデルのセーフガードは限定的な緩和しか提供しない。したがって、モデルトレーニングのための実環境でのフィードバック収集にはより一層の注意が必要であり、現実社会で大規模言語モデルを安全に反復させるための次世代のポストトレーニングパラダイムが求められる。

SuperMemory-VQA: 長期記憶のための一人称視点視覚質問応答ベンチマーク
SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory

May 30

BySamiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang

AIグラスは、AIエージェントが個人向けメモリアシスタントとして機能するための有力なプラットフォームを提供する。真に有用であるためには、そのようなシステムは短期的な動画理解を超え、長期的な一人称視点動画ストリームにおいて、実用的・個人的・社会的な目的で人間が経験する記憶のギャップに対処しなければならない。しかし、既存の一人称視点データセットは主に行動認識や短いクリップからの一般的なQAに焦点を当てており、現実的な人間の記憶ニーズではなく知覚能力を測定している。我々は、実用的かつ長期的な記憶タスクにおけるAIアシスタントの評価を目的とした、一人称視点視覚質問応答（VQA）データセット「SuperMemory-VQA」を紹介する。本データセットは、AIグラスで記録された52.9時間の日常活動を含み、同期されたRGB動画、音声文字起こし、眼球視線、IMU、SLAM軌跡を備える。人間による検証済みアノテーションパイプラインを通じて、物体・位置記憶、意図想起、視覚シーン想起、タイムライン再構成、会話記憶、文脈内検索にわたる、根拠付けられた4,853の質問応答ペアを構築した。各質問は多肢選択形式で提示され、「回答不可能」という明示的な選択肢を含むことで、ハルシネーションに対する堅牢性をテストする。主要なエージェントフレームワークおよびLLMバックボーンを用いたベンチマーク評価の結果、既存のシステムは現実世界の記憶タスクにおいて信頼できる水準には程遠く、証拠が十分な場合にのみ回答可能な、根拠に基づくAIメモリのための新しいアーキテクチャの必要性が明らかになった。さらに、参加者アンケートは、我々の質問が現実的で有用であり、日常の記憶ニーズと整合していることを裏付けている。

代理尤度推定器を用いたスケーラブルな推論時アニーリング
Scalable Inference-Time Annealing with Surrogate Likelihood Estimators

Jun 1

ByDaniel Peñaherrera, Rishal Aggarwal, David Ryan Koes

計算化学と生物物理学における長年の課題は、分子のボルツマン分布を効率的にサンプリングすることである。従来のサンプリング手法の限界に対処するため、シミュレーションの計算コストを排除する生成モデリングの進歩が提案されている。有望な方向性として、温度ラダーに沿って拡散モデルを反復的に微調整する手法があり、推論時のアニーリング中にインポータンスサンプリングを介して学習データを生成する。残念ながら、これらの手法ではインポータンス重みを推定するためにスコア場の発散計算が必要であり、大規模系では実行不可能となる。本稿では、スケーラブルな推論時アニーリング（SITA）を提案する。これは、フローベースモデルを再学習して、エネルギーベースモデルを用いることでプロキシとなる高速な尤度計算を活用し、徐々に低温でのサンプルを生成するものである。アラニンジペプチドおよびアラニントリペプチドにおいて、高コストな発散項を回避しつつ、最先端の性能を示す。コードは https://github.com/countrsignal/sita.git で公開している。

機能的注意：ペアごとの親和性から機能的対応へ
Functional Attention: From Pairwise Affinities to Functional Correspondences

May 29

ByJiefang Xiao, Maolin Gao, Simon Weber, Guandao Yang, Daniel Cremers

無限次元関数空間間の写像の学習、すなわちオペレーター学習は、多くの機械学習アプリケーションにとって不可欠である。トランスフォーマーベースのオペレーターは広く用いられているが、しばしばトークン単位の注意機構に依存している。これらの手法は連続的な場を離散トークンとして扱い、通常は大域的な関数構造を無視する。我々はFunctional Attentionを導入する。これは注意機構を適応的基底間の関数対応として再解釈するものである。幾何学的関数マップに着想を得て、本手法はソフトマックス親和性を構造化線形演算子に置き換える。これにより、大域的な依存関係を明示的に捉える、コンパクトで汎化可能、解像度不変な表現が得られる。実験により、Functional Attentionは、PDEの解法、3Dセグメンテーション、回帰などの多くのオペレーター学習タスクにおいて最先端の性能と同等の成果を達成し、さまざまな離散化に対しても頑健であることが示された。プロジェクトページはhttps://github.com/xjffff/FUNCATTNで公開されている。

プロンプト認識重み付けを用いた訓練不要マルチコンセプトLoRA合成
Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

Jun 2

ByGeorgios Tsoumplekas, Stella Bounareli, Vasileios Argyriou

低ランク適応（LoRA）は、事前学習済み拡散モデルを特定の視覚的概念やスタイルに適応させることで、テキストから画像を生成する際のパーソナライゼーションを成功裏に実現している。しかし、そのようなモデルを複数概念のカスタマイズに拡張することは依然として困難である。複数のLoRA重みやその出力を単純に組み合わせると、概念間の干渉が生じやすく、その結果、視覚的品質が低下し、個々の概念の参照画像に対する忠実度が損なわれる。本論文では、複数のLoRAモジュールの出力を最適に組み合わせることで、複数概念のカスタマイズを実現する、シンプルでありながら効果的な手法を提案する。我々は、対応するプロンプトトークンから推測される、生成中の各概念の相対的重要度を活用し、プロンプトに応じた重要度重み付け戦略を採用するW-SwitchおよびW-Compositeという二つの手法を導入する。この戦略では、ターゲットプロンプト内のトリガーワードの意味的影響に応じて各LoRAに重みが付けられる。さらに、既存の定量的評価指標を拡張し、実世界の参照画像と生成画像から自動的にセグメント化された概念領域との比較を通じて、画像の忠実性とアイデンティティ保持を評価する、新しい画像ベースの類似性評価フレームワークを提案する。我々は、ComposLoRAテストベッド上で本手法を評価し、視覚的品質、アイデンティティ保持、および構成性において、既存の最先端手法に対する一貫した改善を実証する。大規模言語モデル（LLM）による評価やユーザー研究を含む質的評価は、提案手法の有効性をさらに裏付け、新たに導入された定量的な画像ベース指標とも一致する。我々のコードはhttps://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Compositionで公開されている。

テキスト編集は視覚生成に一般化できるか？UMMsにおけるクロスモーダル知識編集のベンチマーキング
Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

May 30

ByXin Gao, Cheng Yang, Chufan Shi, Taylor Berg-Kirkpatrick

統一マルチモーダルモデル（UMMs）は、汎用マルチモーダルインテリジェンスの有望なパラダイムとして登場している。実世界のアプリケーションに展開されるにつれて、内部知識を効果的に更新することが重要になる。知識編集はテキスト専用モデルでは成熟しているが、テキスト出力を正常に修正する編集がUMMsの画像生成にも転移するかは不明である。この問題を研究するために、我々はUMMsにおけるクロスモダリティ知識編集の最初のベンチマークであるUniKEを紹介する。これは属性編集と関係編集にわたる2,971件の編集対象を含む。VQAベースの視覚検証を用いて、我々は顕著なモダリティギャップを明らかにする：テキスト側の有効性は約92%に達する一方、直接画像生成における最高の全体的VQA精度はわずか18.5%である。我々はさらに、生成前に編集された知識を明示的に活性化し、評価されたすべてのモデル・エディタペアにおいて全体的VQA精度を向上させる（最大18.6ポイントの向上）推論拡張パラメータ編集（Reasoning-augmented Parameter Editing）を提案する。メカニズム解析は、このギャップが編集されたテキスト表現と視覚生成の条件付け経路との部分的な整合性に関連していることを示しており、テキスト出力には十分な編集でも画像合成を導くには弱すぎるか不整合のままである可能性がある。これらの発見は、テキスト知識編集が信頼できるクロスモダリティ転移を保証せず、モダリティを考慮した編集方法を動機付けることを示している。我々のコードとデータはhttps://github.com/gxx27/UniKEで入手可能である。

トークン予算：63件のLLMエージェント予算超過インシデントの実証的カタログ、およびアフィン型Rust緩和策の事例研究
Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study

Jun 2

BySajjad Khan

LLMエージェントの予算超過は、文書化された実運用障害クラスである。すなわち、単一の再試行ループが運用者が気付く前に数千ドルを消費し得ることであり、それを防止するプロセス内の整合性特性（コスト負担値のエイリアシング禁止、二重使用禁止、委任後使用禁止）は、仮に実施される場合でも、型システムではなくアドホックなラッパーによって強制される。本研究の中心的な貢献は実証的である。すなわち、2023年から2026年にかけて21のオーケストレーションフレームワークから収集した63件の確認済み実運用インシデントのカタログであり、各インシデントは引用されたGitHub Issueと、報告がある場合はドル建て損失額を伴い、8クラスタの障害分類法（評価者間コーエンのカッパ係数=0.837、N=113）に整理されている。さらに、47件の補足的な構造エントリも含まれる。この分類法に対して評価した緩和策の一つとして、トークン予算（token-budgets）を構築した。これは1,180行のRustクレート（unsafeなし）であり、アフィン所有権を運用可能にすることで、クローン、二重使用、または委任後の予算使用を、運用者が回避すべき実行時の危険性ではなくコンパイルエラーとする。ドル上限は推定器の仮定の下での実行時算術であるが、アフィン層によりその算術が迂回不可能となる。単一エージェントワークロードでは、4行のPythonカウンターが0/30の超過でクレートと同等であり、したがって差別化価値は、マルチエージェント委任における運用者エラー下での迂回不可能性にある。すなわち、11件のインシデントで文書化された委任ファンアウトレースは、コンパイル時に借用チェッカーによって拒否される一方、asyncio下での同一パターンは30/30超過し、3つの規律ある代替手法は0/30超過となる。5つのランタイム、3つのプロバイダ、および温度層別化されたライブAPIテスト（N=160）において、本アプローチは上限違反ゼロ、誤った拒否ゼロを報告し、並行研究と運用上の同等性を示す。静的過剰予約は4～6倍（適応型で2.11倍）である。実行バイナリ上のバイナリレベルの上限健全性は未解決の課題である。