HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

53 papers found

点相互情報量による推論RLのための反自己蒸留
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

May 12

ByGuobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

191

オン方策自己蒸留（特権的コンテキスト、例えば検証済みの解答やフィードバックを条件として、生徒モデルを自身のコピーに引き寄せる手法）は、より強力な外部教師なしに推論能力を向上させる有望な方向性を示している。しかし、数学推論においては、同じ手法が他分野で成功してもその効果は一貫しない。点相互情報量分析により、その失敗の原因は特権的コンテキストそのものにあることが明らかになった。すなわち、コンテキストは、解答にすでに暗黙に含まれるトークン（構造的接続詞や検証可能な主張）に対する教師の確信度を過度に高め、多段階探索を駆動する熟考トークン（「待て」「さて」「もしかすると」）に対する確信度を低下させるのである。本稿では、反自己蒸留（AntiSD）を提案する。これは生徒と教師の間のダイバージェンスを下降させるのではなく上昇させる手法であり、トークンごとの符号を反転させ、一回のステップで自然に制限された利得をもたらす。エントロピー起動ゲートは、教師のエントロピーが崩壊した時点で当該項を無効化し、既定の自己蒸留に対するそのまま置き換え可能な代替を実現する。数学推論ベンチマークにおいて、4Bから30Bパラメータの5つのモデルで実験を行った結果、AntiSDはGRPOベースラインの精度に2～10倍少ない訓練ステップで到達し、最終精度を最大11.5ポイント向上させた。AntiSDは、言語モデルが自身の訓練信号を通じて推論をブートストラップする、スケーラブルな自己改善への道を開く。

AutoResearchClaw: 人間-AI協調による自己強化型自律研究
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

May 19

ByJiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

182

科学的発見の自動化には、アイデアから論文を生成する以上のことが必要である。実際の研究は反復的であり、仮説は複数の視点から検証され、実験は失敗して次の試行に情報を提供し、教訓はサイクルを超えて蓄積される。既存の自律的研究システムは、このプロセスを単一エージェントの推論に依存し、実行が失敗すると停止し、経験を実行間で引き継がない線形パイプラインとしてモデル化することが多い。本論文では、仮説生成と結果分析のための構造化マルチエージェント議論、失敗を情報に変換するPivot/Refine決定ループを備えた自己修復実行器、捏造された数値や幻覚引用（ハルシネーション）を防止する検証可能な結果報告、完全自律からステップごとの監視に至る7つの介入モードを備えた人間参加型（ヒューマン・イン・ザ・ループ）協調、および過去の誤りを将来の保護策に変換する実行間進化という5つのメカニズムに基づくマルチエージェント自律研究パイプラインであるAutoResearchClawを提案する。25トピックからなる実験段階ベンチマークであるARC-Benchにおいて、AutoResearchClawはAI Scientist v2を54.7%上回る性能を示した。7つの介入モードにわたる人間参加型のアブレーション実験により、高レバレッジな決定点における精密で標的を絞った協調が、完全自律および網羅的なステップごとの監視の両方を一貫して上回ることが明らかになった。我々はAutoResearchClawを、人間の科学的判断を置き換えるのではなく拡張する研究増幅器として位置づける。コードはhttps://github.com/aiming-lab/AutoResearchClawで入手可能である。

視覚が音に代わって語るとき
When Vision Speaks for Sound

May 13

ByXiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen, Peng Qi

147

ビデオ対応MLLMの急速な進歩にもかかわらず、それらの映像内における音声理解は視覚に依存していることが多いという課題が見られる。すなわち、モデルは音声ストリームを検証するのではなく、視覚的な手がかりから音響情報を推測または幻覚しているのである。この問題は、最先端のオープンソースのオムニモデルだけでなく、GoogleやOpenAIなどの主要なクローズドソースモデルにも見られる。我々はこの障害モードを、音声-視覚の賢いハンス効果として特徴づける。これは、モデルが（誤って）音声に基づいているように見えるものの、実際には音声と視覚ストリームが本当に一致しているかを検証せずに、視覚-音響の相関を利用している現象である。この行動を体系的に研究するため、我々はThudを導入する。これは、3つの反実仮想的な音声編集に基づく介入駆動型のプロービングフレームワークであり、時間的同期をテストするShift、音の存在をテストするMute、そして音声-視覚の一致性をテストするSwapから構成される。診断に加えて、我々はさらに2段階のアライメント手法を研究する。介入から得られた選好ペアは音声検証を教え、イベントレベルの一般的なビデオ選好は過特化に対する正則化として機能する。我々の最良の10Kサンプル手法は、3つの介入次元にわたる平均性能を28パーセントポイント向上させると同時に、一般的なビデオおよび音声-視覚QAベンチマークの性能をわずかに改善する。

効率的なPRPリランカーとしての能動学習器
Active Learners as Efficient PRP Rerankers

May 15

ByJeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Barron, Juan Wisznia, Luciano del Corro

成对排名提示（PRP）通过从LLM中引出成对偏好判断，并利用经典排序算法将其聚合成一个排名。然而，这些判断具有噪声、对顺序敏感且有时存在不可传递性，因此排序假设与当前设定不匹配。由于排序旨在恢复完整的排列，为满足调用预算而截断排序过程无法产生可靠的top-K。因此，我们将PRP重排重新定义为从含噪声的成对比较中进行主动学习，并表明主动排名器可作为即插即用的替代方案，在调用受限的条件下每调用一次便提升NDCG@10。我们的耐噪声框架还引入了一种随机方向预言机，每对仅需一次LLM调用。该方法将系统性的位置偏差转换为零均值噪声，从而在无需双向调用代价的情况下实现无偏聚合排名。

OpenComputer: コンピュータ利用エージェントのための検証可能なソフトウェア世界
OpenComputer: Verifiable Software Worlds for Computer-Use Agents

May 19

ByJinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

本稿では、検証器に基づくフレームワーク「OpenComputer」を提案する。これは、コンピュータ操作エージェント向けに検証可能なソフトウェア環境を構築するためのものである。OpenComputerは以下の4つの要素を統合する。(1) 実アプリケーション上で構造化された検査エンドポイントを公開する、アプリ固有の状態検証器、(2) 実行に基づくフィードバックを活用して検証器の信頼性を向上させる自己進化型検証層、(3) 現実的かつ機械的に検証可能なデスクトップタスクを合成するタスク生成パイプライン、(4) 完全な軌跡を記録し、監査可能な部分点報酬を計算する評価ハーネス。現状のOpenComputerは、ブラウザ、オフィスツール、クリエイティブソフトウェア、開発環境、ファイルマネージャ、コミュニケーションアプリケーションにわたる33のデスクトップアプリケーションと1,000の最終化タスクをカバーしている。実験の結果、OpenComputerのハードコードされた検証器は、LLMを判断者とする評価よりも人間の判定とより密接に一致すること、特に成功が細かいアプリケーション状態に依存する場合にその傾向が顕著であることが示された。最先端のエージェントは部分的な進捗を示すもののエンドツーエンドの完了に苦戦しており、オープンソースモデルはOSWorld-Verifiedのスコアから急激な低下を示し、堅牢なコンピュータ自動化における持続的なギャップを明らかにしている。

GoLongRL: マルチタスクアラインメントによる能力指向の長文脈強化学習
GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19

ByMinxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

本論文では、GoLongRLを提案する。これは完全にオープンソースで、能力指向のポストトレーニングレシピであり、検証可能な報酬を用いた長文脈強化学習（RLVR）に基づくものである。既存の長文脈RL手法では、データ構築を複雑な検索経路の設計として扱うことが多く、その結果、タスクのカバレッジが均質化され、報酬の定式化が実用的な長文脈要件を適切に反映しないという問題がある。本研究は以下の2つの貢献を提供する。(1) 能力指向のデータ構築と完全なオープンリリース。23KのRLVRサンプルからなるデータセット、完全な構築パイプライン、およびすべてのトレーニングコードを公開する。長文脈能力の分類に基づき、データセットは9つのタスクタイプにわたっており、それぞれに自然な評価指標が対応付けられている。これには、確立されたコーパスからの厳選されたオープンソースサンプルと、書籍、学術論文、マルチターンダイアログなどの実際のソース文書から生成されたQAペアからなる合成サンプルが含まれる。同一のバニラGRPO設定下で、我々のデータセットはクローズドソースのQwenLong-L1.5データセットを上回る性能を示す。さらに、このデータで訓練されたQwen3-30B-A3Bモデルは、DeepSeek-R1-0528やQwen3-235B-A22B-Thinking-2507と同等の長文脈性能を達成しており、より広範なカバレッジと報酬の多様性が長文脈能力の向上に大きく寄与することを示唆している。(2) 異種マルチタスク最適化のためのTMN-Reweight。異種の報酬に起因する最適化の課題に対処するため、タスクレベルの平均正規化によるクロスタスク間の報酬スケール調整と、難易度適応型重み付けを組み合わせたTMN-Reweightを提案する。これにより、より信頼性の高いアドバンテージ推定が可能となる。TMN-Reweightは、バニラGRPOと比較して平均性能をさらに向上させ、報告された評価において一般的な能力が維持または改善される。

学習された信頼性を伴うプロセス報酬
Process Rewards with Learned Reliability

May 15

ByJinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai, Yuyi Yang, Wenxuan Zhang, Jiaxin Huang

プロセス報酬モデル（PRM）は推論におけるステップ単位のフィードバックを提供するが、現在のPRMは通常、各ステップに対して単一の報酬スコアのみを出力する。そのため、下流の手法は不完全なステップ単位の報酬予測を、いつこれらの予測を信頼すべきかという指標なしに、信頼できる意思決定信号として扱わざるを得ない。本稿では、ステップ単位の成功確率とその予測の信頼性の両方を予測する分布型PRMであるBetaPRMを提案する。モンテカルロ続行によるステップ成功の教師信号を用いて、BetaPRMは有限サンプルの成功比率を点目標として回帰するのではなく、ベータ二項尤度を介して観測された成功続行数を説明するベータ信念を学習する。この学習された信頼性信号は、ステップ報酬をいつ信頼すべきかを示し、下流アプリケーションが信頼できる報酬と不確かな報酬を区別することを可能にする。一つの応用として、PRM誘導型Best-of-N推論のための適応的計算割り当て（ACA）を導入する。ACAは学習された信頼性信号を活用し、高い報酬を持つ解が信頼できる場合に計算を停止し、不確かな候補プレフィックスに対して追加の計算を投入する。4つのバックボーンと4つの推論ベンチマークにわたる実験により、BetaPRMはPRM誘導型Best-of-N選択を改善しつつ、標準的なステップ単位の誤り検出を維持することを示す。この信号に基づいて構築されたACAは、固定予算Best-of-16と比較して精度とトークン使用量のトレードオフを改善し、最終回答の精度を向上させながらトークン使用量を最大33.57%削減する。

EnvFactory: 実行可能環境合成とロバスト強化学習によるツール使用エージェントのスケーリング
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18

ByMinrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

エージェント強化学習（Agentic RL）を介してLLMにツール使用能力を付与することは、スケーラブルで堅牢な実行環境の欠如と、暗黙的な人間の推論を捉えた現実的なトレーニングデータの不足という二つの課題によってボトルネックとなっている。既存のアプローチは、高コストな実世界API、幻覚を起こしやすいLLMシミュレータ、あるいは多くの場合単一ターンであるか事前収集された文書に依存する合成環境に依存している。さらに、合成軌道はしばしば過剰に指定されており、自然な人間の意図ではなく命令シーケンスに類似しているため、RLトレーニングにおける有効性が低下している。我々は、両方の課題に対処する完全自動化フレームワークであるEnvFactoryを紹介する。EnvFactoryは、信頼できるリソースからステートフルで実行可能なツール環境を自律的に探索・検証し、トポロジーを考慮したサンプリングと調整されたリファインメントを通じて自然なマルチターン軌道を合成し、暗黙的な意図を持つ接地されたクエリを生成する。わずか7ドメインにわたる85の検証済み環境のみを使用して、EnvFactoryは2,575のSFTおよびRL軌道を生成する。先行研究（多くの場合5倍以上の環境を使用）に比べて著しく少ない環境を使用しているにもかかわらず、EnvFactoryは優れたトレーニング効率と下流性能を達成し、BFCLv3で最大+15%、MCP-Atlasで+8.6%、τ^2-BenchやVitaBenchを含む会話ベンチマークで+6%の改善をQwen3シリーズモデルにもたらしている。環境構築と軌道合成の両方を完全に自動化することにより、EnvFactoryはエージェント強化学習のためのスケーラブルで拡張可能かつ堅牢な基盤を提供する。

CogOmniControl: 推論駆動による創造的意図認識に基づく制御可能な動画生成
CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

May 19

ByHongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao, Chengzhong Xu, Jianbing Shen

最近の拡散モデルは、動画生成において高いフォトリアリズムと流暢さを達成していますが、抽象的で疎な条件や複雑な条件下では脆弱であり、そのため、ストーリーボードスケッチやクレイレンダリング条件などのプロフェッショナルな制作ワークフローにおいて性能が低くなっています。既存の動画生成モデルは、アダプターを介して条件を注入するか、汎用視覚言語モデル（VLM）を拡散バックボーン内に結合するかのいずれかであり、能力のギャップが生じ、ユーザーの創造意図に沿った動画を生成できません。本論文では、制御可能な動画生成を創造意図の認知と生成に分解する、推論駆動型フレームワークであるCogOmniControlを提案します。具体的には、実際のアニメ制作データを用いて専門化されたCogVLMを訓練します。汎用VLMと比較して、より専門的で明確な出力を生成し、疎で抽象的な条件からユーザーの創造意図を正確に認知し、これらの手がかりを高密度な推論出力に調整します。さらに、CogOmniDiTはコンテキスト内生成を通じてさまざまな条件からの制御を統一し、強化学習を介してCogVLMの推論出力に整合させます。さらに、CogVLMの動画生成を導く堅牢な能力を活用し、特定の評価器を計画する可能性を引き出し、生成された動画に対してBest-of-N選択を可能にします。この統合により、フレームワーク全体が閉ループの「ハーネス的」アーキテクチャに変貌します。さらに、シミュレーションされたものではなく真の創造意図を伴うプロフェッショナルなワークフローデータから構築されたCogReasonBenchとCogControlBenchを導入します。2つのベンチマークでの実験により、CogOmniControlが既存のオープンソースモデルを凌駕することが示されました。プロジェクトウェブサイト: https://um-lab.github.io/CogOmniControl/

スキルプログラムを用いたLLMエージェントの活用
Harnessing LLM Agents with Skill Programs

May 18

ByHongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao

LLMエージェントに過去の経験から得た再利用可能なスキルを装備することは、複雑で長期的なタスクに取り組むための一般的で成功したアプローチとなっている。しかし、こうした教訓は多くの場合、主として助言的なテキストによるガイダンスとして符号化され、エージェントループにいつどのように介入すべきかについての明示的なメカニズムを欠いている。このギャップを埋めるために、我々はHASP（Harnessing LLM Agents with Skill Programs）という新しいフレームワークを導入する。これはスキルを実行可能なプログラム関数（PF）へと昇格させるものである。受動的なアドバイスを提供するのではなく、PFは実行可能なガードレールとして機能し、失敗しやすい状態で作動して次のアクションを修正したり、修正コンテキストを注入したりする。HASPは高度にモジュール化されており、推論時にエージェントループへの直接介入のために、事後学習中に構造化された監督を提供するために、または検証済みで教師によるレビューを受けたPFを進化させることで自己改善のために適用できる。実験的に、HASPはWeb検索、数学的推論、コーディングタスクにおいて、訓練不要および訓練ベースの手法の両方と比較して大幅な改善をもたらす。例えば、Web検索推論では、推論時のPFのみで（マルチループ）ReActエージェントと比較して平均性能が25%向上し、一方、事後学習と制御された進化によりSearch-R1と比較して30.4%の向上を達成する。HASPに関するより深い洞察を提供するために、我々のメカニズム分析は、PFがどのようにトリガーされ介入するか、スキルがどのように内面化されるか、そして安定したスキルライブラリの進化の要件を明らかにする。

Aurora: ツール使用エージェントによる統合動画編集
Aurora: Unified Video Editing with a Tool-Using Agent

May 18

ByYongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua, Wei Xiong, Jiebo Luo

近年のビデオ編集モデルは、統一的な条件付け設計に収束しつつある。すなわち、単一の拡散トランスフォーマーがテキスト、ソースビデオ、参照画像を同時に処理し、一組の重みが置換、除去、スタイル変換、参照駆動による挿入をカバーする。この設計は柔軟であるが、ユーザーがすでにモデル対応のテキスト、参照画像、局所編集のための空間的根拠を提供していることを前提としており、実際のリクエストではこれらが欠落することが多い。本稿では、ツール拡張型視覚言語モデル（VLM）エージェントと統一型ビデオ拡散トランスフォーマーを組み合わせたエージェンティックビデオ編集フレームワーク「Aurora」を提案する。VLMエージェントは、生のユーザーリクエストを、トランスフォーマーの条件付けチャネルに整合する構造化編集計画にマッピングし、生成前にテキストおよび視覚の仕様不足を解消する。我々は、完全な編集計画と参照画像選択のための教師ありデータ、ならびにロバストなツール使用と指示洗練のための嗜好ペアを用いてVLMエージェントを訓練する。さらに、テキストおよび視覚の仕様不足下でのエージェント拡張型ビデオ編集を評価するためのAgentEdit-Benchを導入する。AgentEdit-Benchおよび既存の2つのビデオ編集ベンチマークにおける実験により、Auroraが指示のみのベースラインを改善し、VLMエージェントが互換性のある凍結ビデオ編集モデルに転移可能であることを示す。プロジェクトページ: https://yeates.github.io/Aurora-Page

Artifact-Bench: AI生成ビデオのアーティファクト検出および評価におけるMLLMの評価
Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

May 18

ByYuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai, Yue Ding, Ruizhe Chen, Bohan Zeng, Xinlong Chen, Xuanyu Zhu, Bozhou Li, Yuran Wang, Yifan Dai, Chengzhuo Tong, Xinyu Liu, Yiyan Ji, Yujie Wei, Yuhao Dong, Shilin Yan, Fengxiang Wang, Yi-Fan Zhang, Haotian Wang, Yuanxing Zhang, Pengfei Wan

最近のビデオ生成モデルにより、AI生成動画のリアリズムは大幅に向上したが、それでも時間的不整合、構造的歪み、意味的不整合などのアーティファクトが出力に現れる。マルチモーダル大規模言語モデル（MLLM）は強力な視覚理解能力を示すものの、そのようなアーティファクトを知覚し推論する能力は依然として不明確である。既存のベンチマークは、特にフォトリアリスティックなコンテンツを超えた多様なAI生成動画領域において、アーティファクト認識の体系的な評価や詳細な診断的推論が不足していることが多い。このギャップを埋めるため、我々はArtifact-Benchを導入する。これは、AI生成動画のアーティファクト検出と分析におけるMLLMを評価するための包括的なベンチマークである。まず、フォトリアリスティック、アニメーション、CGスタイルの動画を網羅する、3レベルの階層的なリアリズムアーティファクト分類法を確立する。この分類法に基づき、Artifact-Benchは3つの相補的なタスクを定義する：実動画とAI生成動画の分類、ペアワイズリアリズム比較、および詳細なアーティファクト識別である。19の主要なMLLMを用いた実験では、アーティファクトの知覚と推論において顕著な限界が明らかになり、多くのモデルが困難な設定でランダムに近い、あるいはランダム以下のパフォーマンスを示した。さらに、MLLMの判断と人間の知覚嗜好との間に著しい不一致が観察され、AI生成動画のリアリズムに対する汎用的評価器としての信頼性が限定的であることが浮き彫りとなった。

ThoughtTrace: 実世界のLLMインタラクションにおけるユーザ思考の理解
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

May 19

ByChuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu

対話型AIは現在、数十億人のユーザーに届いていますが、既存のデータセットはユーザーが何を言ったかだけを捉え、何を考えているかは捉えていません。我々はThoughtTraceを導入します。これは、実世界のマルチターンな人間-AI対話と、ユーザーが自己報告した思考（プロンプトを送信した理由やアシスタントの応答に対する反応）をペアリングした初の大規模データセットです。ThoughtTraceは、1,058人のユーザー、2,155件の対話、17,058ターン、および20の言語モデルにわたって収集された10,174件の思考アノテーションで構成されています。分析により、ThoughtTraceは長期的でトピック的に多様な相互作用を捉え、思考がメッセージと意味的に異なり、最先端LLMが文脈から推論するのが困難であり、内容が多様で、対話の段階に関連付けられていることが示されます。さらに、下流モデリングにおける思考の有用性を実証します。第一に、思考は推論時コンテキストとしてユーザー行動予測を改善します。第二に、思考に導かれたリライトは、パーソナライズされたアシスタントを訓練するための細粒度のアライメント信号を提供します。以上により、ThoughtTraceは人間-AI相互作用の背後にある認知ダイナミクスを研究するための新しいデータモダリティとしてユーザーの思考を確立し、ユーザーの潜在的な目標、好み、ニーズをより理解し適応するアシスタントを構築するための基盤を提供します。

OmniGUI：オムニモーダルスマートフォン環境におけるGUIエージェントのベンチマーク
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

Apr 3

ByFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

現在のグラフィカルユーザインタフェース（GUI）エージェント向けベンチマークは、主に静的スクリーンショットに依存している。しかし、実世界のスマートフォン操作では、エージェントが動作の瞬間と密接に関連する過渡的な音声キューや時間的映像ダイナミクスを処理することが日常的に求められる。このギャップを埋めるため、我々はOmniGUIを導入する。これは、オムニモーダルなスマートフォン環境においてGUIエージェントを評価するために設計された、初のステップレベルベンチマークである。OmniGUIは、各アクションステップにおいて、静的画像、同期音声、動画クリップから構成される連続的かつインターリーブされたマルチモーダル入力を提供する。データセットは、29のアプリケーションにわたる709の専門家によるデモエピソード（2,579のアクションステップ）を含み、客観的なマルチモーダル依存度レベルで体系的にアノテーションされている。専用のオムニモーダルGUIエージェントフレームワークはまだ初期段階にあるため、我々はインターリーブ入力をネイティブに処理可能な基盤的オムニモーダルモデルを選択し、初期ベースラインのエージェントプロキシとして用いる。実験評価の結果、現在のモデルは視覚的に静的なタスクでは能力を示すものの、同期的な時間的および聴覚的信号を必要とする環境ではアクション予測性能が著しく低下することが明らかになった。さらに、アブレーション研究により、タスクに関係のない環境ノイズを処理する際のクロスモーダル干渉など、特定の動作上のボトルネックが特定された。完全なデータセット、評価パイプライン、ベースラインプロンプトは補足資料に提供されている。プロジェクトページ: https://omni-gui.github.io

MSAVBench: 包括的かつ信頼性の高いマルチショット音声・動画生成評価に向けて
MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

May 19

ByYujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan

映像生成は、単一ショット合成から、現実世界の要求に応える複雑なマルチショット音声映像（MSAV）ナラティブへと急速に進化している。しかし、こうした最先端モデルの評価は未だ根本的な課題である。既存のベンチマークは範囲とデータの多様性が限られており、硬直した評価パイプラインに依存しているため、現代のMSAVモデルを体系的かつ信頼性高く評価することができない。これらのギャップを埋めるために、我々はMSAVBenchを導入する。これは、マルチショット音声映像生成のための初の包括的ベンチマークと適応型ハイブリッド評価フレームワークである。我々のベンチマークは、映像、音声、ショット、参照の4つの主要次元をカバーし、多様なタスク設定、最大15までの可変ショット数、および困難な非現実的なシナリオを含む。評価フレームワークは、ショット分割のための適応的自己修正機構、主観的指標のためのインスタンス単位のルーブリック、複雑な判断のためのツール基盤のエビデンス抽出により、ロバスト性を向上させる。さらに、MSAVBenchは人間の判断との高い一致を達成し、スピアマンの順位相関係数は91.5%に達する。19の最先端のクローズドソースおよびオープンソースモデルに対する体系的な評価により、現在のシステムは監督レベルの制御や微細な音声-映像同期に依然として苦戦している一方、モジュール型またはエージェント型の生成パイプラインがオープンソースモデルとクローズドソースモデルの差を縮める有望な道を提供することが示された。今後の研究を促進するために、ベンチマークデータと評価コードを公開する予定である。

対話的評価にはデザイン科学が必要である
Interactive Evaluation Requires a Design Science

May 18

ByKeyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei

AI評価は構造的な変革の只中にある。大規模言語モデル（LLM）は、ツール、環境、ユーザー、その他のエージェントを通じて時間をかけて動作するシステムとしてますます展開されているが、多くの評価手法は依然として応答中心のベンチマーク（例：固定入力、孤立出力、単一応答から判断可能な結果評価）から継承された前提に依存している。この分野ではインタラクティブなベンチマークの構築が始まっているが、結果として生じた状況は断片的である。ベンチマークごとに許容される相互作用の成果物、軌跡のスコアリング方法、結果が裏付ける主張が異なるのだ。本ポジションペーパーは、インタラクティブ評価を単なる新たなエージェントベンチマークの一群ではなく、原理に基づく評価パラダイムとして扱うべきだと論じる。従来の評価パラダイムを単に採用するだけでは不十分である。我々は評価を証拠から判断への自律的な写像と定義し、インタラクティブ評価がこの写像の両側面を変革することを示す。すなわち、証拠は相互作用によって生成された軌跡となり、評価手順はプロセス、回復可能性、協調、ロバスト性、システムレベルのパフォーマンスを評価しなければならない。この定義に基づき、我々は二軸の分類法を提案し、設計原則と報告基準を導出し、代表的なシナリオを検討し、長年にわたる評価課題が軌跡レベルでどのように再出現するかを分析する。

CEPO: 対比的証拠方策最適化を用いたRLVR自己蒸留
CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

May 19

ByAhmed Heakl, Abdelrahman M. Shaker, Youssef Mohamed, Rania Elbadry, Omar Fetouh, Fahad Shahbaz Khan, Salman Khan

検証可能報酬を用いた強化学習（RLVR）のもとでモデルが正しい解を生成した場合、たとえそのトークンが決定的な推論ステップであれ文法的な埋め草であれ、すべてのトークンが同一の報酬信号を受け取る。自然な修正方法として、正解を教師としてモデルに条件付け、正解を知っていた場合に異なる生成がなされたであろうトークンを特定する方法が考えられる。しかし、従来研究では、この方法は勾配に正解を漏洩させることで学習を損なうか、あるいはモデルのベースラインに対する驚きの程度が等しいため、決定的なステップと埋め草とを区別できない弱い信号しか生成しないことが示されている。本稿では、対比的証拠ポリシー最適化（CEPO）を提案する。CEPOは各トークンに対して、単に「正解はこのトークンを支持するか？」ではなく、「正解はこのトークンを支持する一方、誤答はこれを不支持とするか？」というより鋭い問いを立てる。両方の条件を満たすトークンは真の推論ステップであり、どちらも満たさないものは埋め草である。誤答の教師は、学習バッチ内で既に棄却されたロールアウトから構築されるため、追加のサンプリングコストは発生しない。我々は、CEPOが従来の最先端手法の構造的安全性保証をすべて継承しつつ、決定的なトークンにおけるクレジット割り当てを厳密にシャープ化し、その改善効果は埋め草位置で正確に消失することを証明する。実験的には、CEPOは5つのマルチモーダル数学的推論ベンチマークにおいて、2Bスケールで平均精度43.43%、4Bスケールで60.56%を達成し、同一の学習予算のもとでのGRPOの41.17%および57.43%を上回る。分布マッチングに基づく自己蒸留手法（OPSD、SDPO）は未学習のベースラインを下回っており、我々の理論が予測する情報漏洩を実証的に確認している。コードはhttps://github.com/ahmedheakl/CEPOで公開している。

SENSE：持続可能な環境のための衛星ベースのエネルギー合成
SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

May 18

ByKailai Sun, Mingyi He, Heye Huang, Can Rong, Alok Prakash, Baoshen Guo, Shenhao Wang, Jinhua Zhao

都市建物エネルギーモデリング（UBEM）は、国連の持続可能な開発目標（SDGs）第7目標および第11目標の達成において極めて重要な役割を果たす。衛星画像と深層学習に基づく既存研究は顕著な進展を遂げているものの、多くの課題が存在する。すなわち、既存研究の大半は本質的に予測型であり、都市計画の生成的な性質を反映できていないこと、生成AIや拡散モデルが衛星画像分野で爆発的な発展を遂げている一方で、都市の機能生成（例えばエネルギー層）が欠けていること、さらに、高品質かつ高解像度の建物エネルギー消費データと衛星画像を整列させたデータが限られており希少であることである。本稿では、SENSE（Satellite-based ENergy Synthesis for Sustainable Environment：持続可能な環境のための衛星ベースエネルギー合成）を提案する。SENSEは、現実的な都市衛星画像と、それに整列された高品質の建物エネルギー消費量および高さマップを統合的に生成する統一的な生成型UBEMフレームワークである。道路網と都市密度指標を条件として、制御可能な拡散モデルに基づくSENSEは、大規模視覚モデルが学習した知識を活用し、潜在空間において都市の建物エネルギー消費量と高さ情報（アノテーション）を生成する。ニューヨーク市、ボストン、リヨン、釜山の4都市で実施した実験により、SENSEは高い視覚的忠実度と強力な物理的一貫性を達成し、ASHRAE標準指標を満たすことが示された。実験では、SENSEはラベル付きエネルギーデータの20％未満を用いて、十分な合成アノテーションデータを生成でき、下流の予測性能をIoUで10％向上させた。最先端の都市エネルギー予測手法と比較して、SENSEは予測誤差を大幅に低減した（NMBEで3～11％、CVRMSEで1～9％の低減）。本研究は、都市科学、エネルギー科学、建築科学に対し、エネルギー効率の高い都市計画と物理的生成のソリューションを提供する。データセットとコードは以下から入手可能：https://huggingface.co/datasets/skl24/MUSE および https://github.com/kailaisun/GenAI4Urban-Energy/。

ビデオモデルは検証可能な報酬を用いて推論できる
Video Models Can Reason with Verifiable Rewards

May 14

ByTinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen

ビデオ拡散モデルは、知覚的リアリズムと時間的一貫性において急速な進歩を遂げているが、依然として検証可能な推論ではなく、もっともらしい生成に主に最適化されている。この制限は、生成された動画が明示的な空間的、時間的、または論理的制約を満たさなければならないタスクにおいて特に顕著である。推論指向の言語モデルにおける検証可能な報酬を用いた強化学習（RLVR）の役割に着想を得て、我々はVideoRLVRを導入する。これは、ルールベースのフィードバックを用いてビデオ拡散モデルを最適化するための実用的な手法である。VideoRLVRは、ビデオ推論を検証可能な視覚的軌跡の生成として定式化し、SDE-GRPO最適化バックボーン、密な分解報酬、および効率的な訓練のための早期ステップ集中戦略から構成される。早期ステップ集中戦略は、政策最適化を初期のノイズ除去段階に制限し、性能を維持しながら訓練レイテンシを約40%削減する。我々は、VideoRLVRを迷路、FlowFree、倉庫番の3つの手続き的に生成されたドメインで評価する。これらは客観的な成功基準を持つ。これらのタスク全体で、VideoRLVRは教師ありファインチューニングベースラインを一貫して改善し、密な分解報酬は成功率が低い設定で特に重要であることが示された。我々のRL最適化モデルは、これらの検証可能な推論ベンチマークおよびドメイン外ベンチマークにおいて、評価対象のプロプライエタリおよびオープンソースのビデオ生成モデルをも上回る性能を示した。これらの結果は、検証可能な強化学習がビデオモデルを知覚的模倣から、より信頼性の高いルールに一貫した視覚的推論へと移行させる可能性を示唆している。

PixVerve: 大規模高品質データセットによるネイティブUHR画像生成の100MP対応
PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

May 19

ByHaojun Chen, Haoyang He, Chengming Xu, Qingdong He, Junwei Zhu, Yabiao Wang, Zhucun Xue, Xianfang Zeng, Zhennan Chen, Xiaobin Hu, Hao Zhao, Yong Liu, Jiangning Zhang, Dacheng Tao

テキストから画像（T2I）モデルは、近年1Kおよび2K解像度において顕著な進歩を遂げている。より優れた視覚体験への強い欲求と画像技術の急速な発展に伴い、超高解像度（UHR）画像生成への需要は大幅に高まっている。しかしながら、高解像度コンテンツの希少性と複雑さにより、UHR画像生成は大きな課題を抱えている。本論文ではまず、慎重に設計されたデータパイプラインを用いてキュレーションされた高品質かつオープンソースのUHR T2Iデータセット「PixVerve-95K」を紹介する。このデータセットは、多様なシナリオにわたる95K枚の画像（各画像の最小ピクセル数は1億）と7次元のアノテーションを含む。我々はこの大規模画像テキストデータセットに基づき、3つの訓練手法を用いて各種T2I基盤モデルをネイティブな1億ピクセル生成へと拡張する先駆的な一歩を踏み出す。最後に、従来の評価指標とマルチモーダル大規模言語モデルに基づく評価の両方を活用し、提案するPixVerve-Benchベンチマークは、画質と意味的整合性を網羅するUHR画像の包括的な評価プロトコルを確立する。本ベンチマークにおける広範な実験結果と訓練戦略の建設的な探求は、将来のブレークスルーに向けた貴重な知見を共同してもたらす。

統一マルチモーダルモデルのための意味的生成チューニング
Semantic Generative Tuning for Unified Multimodal Models

May 18

BySongsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

統一マルチモーダルモデル（UMM）は、視覚理解と視覚生成を単一のアーキテクチャに統合することを目指している。しかし、現在の訓練パラダイムでは、疎なテキスト信号による理解の最適化と、密なピクセル目標による生成の最適化が独立して行われている。このような分離された戦略は、表現空間のミスアライメントを引き起こし、視覚理解と生成を隔離し、相互強化を妨げている。本研究は、生成的後学習に関する初の体系的な調査を提示し、階層的視覚タスクを生成プロキシとして定式化することで、UMMにおけるこの隔離を橋渡しする。我々の実証的調査により、高次の意味タスク、特に画像セグメンテーションが最適なプロキシであることが明らかになった。低次タスクがテクスチャの詳細でモデルを混乱させるのに対し、セグメンテーションは構造的意味を提供し、視覚中心の知覚と生成レイアウトの忠実度の両方を大幅に向上させる。これらの知見に基づき、我々はセマンティック生成チューニング（SGT）を導入する。これはセグメンテーションを生成プロキシとして活用し、マルチモーダル能力を整列・相乗させる新しいパラダイムである。機構解析により、SGTが特徴の線形分離性を根本的に改善し、視覚・テキスト注意配分パターンを最適化することがさらに示された。広範な評価により、SGTが主流のベンチマークにおいてマルチモーダル理解と生成忠実度の両方を一貫して改善することが実証された。我々のコードはhttps://song2yu.github.io/SGT/で公開されている。

時空間注意連鎖による高速4Dメッシュ生成
Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

May 19

ByDvir Samuel, Yuval Atzmon, Gal Chechik, Yoni Kasten

4Dメッシュ生成は、動画から動的3D構造を復元するための強力なパラダイムとして最近登場したが、既存手法は依然として遅く、計算コストが高く、より長いシーケンスに拡張することが困難である。我々は、トレーニング不要のアプローチを導入し、4Dメッシュ生成を高速化すると同時に、時間的対応関係の品質を向上させる。我々の重要な発見は、生成されたメッシュが視覚的に正確になるずっと前に、4Dバックボーン内部に時間的対応関係が現れるという点である。我々はこれを、時空間アテンションチェーン（Spatio-Temporal Attention Chain）と呼ぶ一般的なフレームワークで活用し、時空間にわたって情報を伝播させる。アンカーメッシュ上の頂点から始まり、チェーンは頂点を潜在トークンにマッピングする。次に、潜在空間内の時間的対応関係を追跡し、潜在から頂点へのアテンションを通じてフレーム固有の頂点を復元する。この設計により、高価な明示的マッチングを回避しつつ、アンカーメッシュの詳細を保持し、動的メッシュの形状と時間的一貫性を向上させる。最先端手法と比較して、本手法は9秒で4Dメッシュを生成し、13倍の高速化を達成しながら、より高品質な結果を生成する。さらに、本アプローチはメッシュ品質を低下させることなく、最大16倍長い動画に拡張可能である。生成を超えて、改善された対応関係により、2Dオブジェクト追跡と4D追跡という2つの下流タスクにおいて競争力のあるゼロショット性能を実現する。さらに、本フレームワークが信頼性の高いカメラ推定を可能にすることを示す。これは、従来の4Dメッシュ生成手法ではサポートされていない機能である。

RT-Splatting: ガウシアンスプラッティングによる反射と透過の同時モデリング
RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting

May 18

ByJi Shi, Xianghua Ying, Bowei Xing, Ruohao Guo, Wenzhen Yue

3Dガウシアンスプラッティング（3DGS）は、高画質なリアルタイム新規視点合成を実現する。しかし、既存手法は複雑な反射と明確な透過を併せ持つ半透明の鏡面表面に対して苦戦し、しばしばぼやけた反射や過度に遮蔽された透過を生じる。この問題に対処するため、我々は各ガウシアンの幾何学的占有と光学的不透明度を分離するフレームワーク「RT-Splatting」を提案する。この因子分解により、単一のガウシアン基本要素セットを用いた統一的な表面・体積シーン表現が得られる。我々のハイブリッドレンダラは、この表現を高周波反射を捉える表面として、また明確な透過を保持する体積として、同時に解釈する。反射と透過の協調最適化における曖昧性を軽減するため、我々は「鏡面認識勾配ゲーティング」を導入する。これは、高い鏡面性を持つ領域からの誤った勾配が透過ブランチに流入するのを抑制し、散乱するフローターを効果的に低減する。挑戦的な半透明シーンの実験において、RT-Splattingは最先端の性能を達成し、リアルタイムレンダリングで高忠実度の反射と明確な透過を提供する。さらに、我々の因子分解は柔軟なシーン編集を自然に可能にする。プロジェクトページはhttps://sjj118.github.io/RT-Splattingで公開されている。

デルタ注意残差
Delta Attention Residuals

May 13

ByCheng Luo, Zefan Cai, Junjie Hu

注意残差は、標準的な加法残差接続を、前層出力に対する学習されたソフトマックス注意に置き換えることで、選択的な層間ルーティングを可能にする。しかし、標準の注意残差は依然として前層の累積的な隠れ状態（これは高度に冗長である）に注意を向ける。本論文では、この冗長性が深い層においてルーティング崩壊を引き起こすことを示す：注意重みが低コントラストとなり一様分布に近づき（最大重み≈0.2）、モデルが前層の情報豊富な状態を選択する能力が制限される。これにより、「注意残差において層ごとのどの表現をルーティングすべきか」という、重要ながら未解明な設計上の問いが浮上する。この問いに答えるため、我々はデルタ注意残差を提案する。これは累積状態ではなく、各サブ層が導入する変化（v_i = h_{i+1} - h_i）であるデルタに注意を向ける。デルタ表現は構造的に多様であり、より高コントラストな注意分布（最大重み≈0.6）を生成し、層間でのより選択的かつ効果的なルーティングを可能にする。この原理は、サブ層単位およびブロック単位の両方の粒度で適用可能である。テストしたすべてのスケール（220M～7.6B）において、デルタ注意残差は標準残差および注意残差の両方を一貫して上回り、検証パープレキシティで1.7～8.2%の改善を達成する。また、デルタ注意残差は、事前学習済みモデルを標準的なファインチューニングによりデルタ注意残差に変換することを可能にする。コードはhttps://github.com/wdlctc/delta-attention-residuals-codeで入手可能である。

視覚的継続学習における破滅的忘却を強化学習微調整で克服する
Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

May 10

ByMeng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu

近年の研究では、Reinforcement Fine-Tuning（RFT）がSupervised Fine-Tuning（SFT）よりも本質的に破滅的忘却に対して耐性があることが示唆されている。しかし、クラス増分学習（CIL）やドメイン増分学習（DIL）などの困難なビジュアル継続学習設定において、RFT（例：GRPO）が忘却を効果的に克服できるかどうかは、依然として未解決の問題である。パイロット研究を通じて、RFTが一貫してSFTを上回る一方で、無視できない忘却が依然として生じることを確認した。我々はこのボトルネックを経験的に「軌跡レベルのドリフト無依存性」に起因するものと特定した。すなわち、同一のタスク報酬を達成する候補ロールアウト間で、先行タスク方策からのKLダイバージェンスが大きく変動し、これが逐次タスク間の破滅的忘却と強く相関する。この洞察に基づき、我々は軌跡レベルの報酬整形を通じて忘却を明示的に軽減する、シンプルかつ効果的なRFT手法である「Retention-aware Policy Optimization（RaPO）」を提案する。具体的には、RaPOは以下の二つの中核要素から構成される。（1）保持報酬：軌跡レベルの分布ドリフトを連続的な報酬信号に変換し、各グループ内で知識保持的なロールアウトを優先的に強化する。（2）タスク間アドバンテージ正規化（CTAN）：タスク境界を越えて報酬統計量の指数移動平均を維持し、継続学習中の最適化進行を安定化させる。MLLMの自由形式テキスト生成能力を活用し、五つのビジュアル継続学習設定でRaPOを包括的に評価した。大規模な実験により、RaPOが最先端の性能を達成し、強力な可塑性を維持しつつ破滅的忘却を大幅に低減することを実証した。我々の知る限り、本研究はビジュアル継続学習におけるRFTの初の体系的探求であり、将来の研究に刺激を与える洞察を提供することを願っている。

PEEK: 長文脈LLMエージェントのための方向付けキャッシュとしてのコンテキストマップ
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

May 19

ByZhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

大規模言語モデル（LLM）エージェントは、文書コーパスやコードリポジトリのような、長期にわたり繰り返し発生する外部コンテキスト上で動作することが増えている。呼び出しのたびに、既存のアプローチはエージェントの軌跡、生の素材への受動的なアクセス、またはタスクレベルの戦略のいずれかを保持する。しかし、繰り返し同じコンテキストで動作するワークロードにおいて最も必要と考えられる、再利用可能な方向付け知識（例えば、コンテキストに何が含まれているか、その構成方法、歴史的に有用であったエンティティ、定数、スキーマなど）を、繰り返し発生するコンテキスト自体について保持するものはない。本稿では、この方向付け知識をコンテキストマップとしてキャッシュし維持するシステムPEEKを紹介する。コンテキストマップとは、エージェントのプロンプト内に存在する、小さく一定サイズのアーティファクトであり、エージェントに外部コンテキストへの持続的な垣間見を提供する。このマップは、3つのモジュールからなるプログラム可能なキャッシュポリシーによって維持される。すなわち、推論時のシグナルから転移可能な知識を抽出する蒸留器、それを構造化された編集に変換する地図製作者、そして固定されたトークン予算を強制する優先度ベースの削除器である。長期コンテキストの推論と情報集約において、PEEKは強力なベースラインを6.3～34.0%上回り、同時に93～145回少ない反復回数で、最先端のプロンプト学習フレームワークACEと比較して1.7～5.8倍低いコストを実現する。コンテキスト学習においては、PEEKは解決率とルーブリック精度をそれぞれ6.0～14.0%および7.8～12.1%向上させ、ACE比1.4倍の低コストを達成する。これらの利点は、OpenAI Codex（本番環境向けコーディングエージェント）を含む、様々な言語モデルおよびエージェントアーキテクチャに一般化される。これらの結果は、コンテキストマップが長期コンテキストのLLMエージェントが繰り返し発生する外部コンテキストとより正確かつ効率的に相互作用するのに役立つことを示している。

ドラフトを減らし、リトリーブを増やす：投機的デコードのためのハイブリッド木構築
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

May 19

ByYuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

投機的デコーディング（SD）は、ドラフト検証パラダイムを活用することで大規模言語モデルの推論を高速化する。受入率を最大化するため、最近の手法では広範なドラフト木を構築するが、これは不幸にも深刻なVRAM帯域幅と計算オーバーヘッドを引き起こし、エンドツーエンドの高速化のボトルネックとなる。動的深さ枝刈りは、周辺的な枝を除去することでこの遅延を低減できるが、同時に潜在的に有効な候補を破棄するため、受入率が密な木の上限に達するのを妨げる。本論文では、リソース割り当てにおける重要な機会を特定する：密なドラフトから枝刈りされたドラフトへの移行により、かなりの計算予算が解放される。このパレートトレードオフを打破するために、我々はGraftを導入する。これは枝刈りと検索を相互補強操作として結合する補償フレームワークである。枝刈りは検索に十分な予算を提供し、一方検索は枝刈りによって生じたカバレッジ損失を補償し、受理された長さを回復する。逐次的な「枝刈り後にグラフト」機構を採用することで、Graftは枝刈りによって開かれた位置に予測性の高い検索トークンを付加し、トポロジー的なギャップをほぼゼロのオーバーヘッドで埋める。Graftは完全に学習不要で損失がない。包括的な評価により、Graftが短コンテキスト生成、長コンテキスト生成、大規模モデルを含む実用的なデプロイ設定全体にわたって新たなパレートフロンティアを確立することを示す。短コンテキストベンチマークでは、最大5.41倍の高速化を達成し、大規模なQwen3-235BにおいてEAGLE-3に対する平均高速化を最大21.8%向上させる。また、GraftをDFlashスタイルのブロックドラフトパラダイムに適用する予備的探求を提供し、自己回帰ドラフト木を超えたグラフトの拡張に対する初期の証拠と洞察を提示する。

TideGS: アウトオブコア最適化による10億以上の3Dガウシアンスプラッティングプリミティブのスケーラブルな学習
TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization

May 19

ByChonghao Zhong, Linfeng Shi, Hua Chen, Tiecheng Sun, Hao Zhao, Binhang Yuan, Chaojian Li

数十億プリミティブ規模での3Dガウシアンスプラッティング（3DGS）学習は、本質的にメモリ律速である。各ガウシアンプリミティブは大きな属性ベクトルを持ち、パラメータテーブル全体がすぐにGPUの容量を超過するため、従来のシステムでは一般的なシングルGPUハードウェア上で数千万個のガウシアンに制限されていた。我々は、3DGS学習が本質的に疎であり、軌道条件付きであることに着目した。すなわち、各イテレーションでは現在のカメラバッチから可視なガウシアンのみが活性化されるため、GPUメモリは永続的なパラメータストアではなくワーキングセットキャッシュとして機能できる。この知見に基づき、我々はTideGSを導入する。これは、SSD-CPU-GPU階層全体でパラメータを管理するアウトオブコア学習フレームワークであり、以下の3つの相乗効果を持つ技術により実現される。すなわち、SSDに整列した空間局所性のためのブロック仮想化ジオメトリ、I/Oと計算をオーバーラップさせる階層的非同期パイプライン、そしてイテレーション間で増分ワーキングセット差分のみを転送する軌道適応型差分ストリーミングである。実験により、TideGSは単一の24 GB GPU上で10億以上のガウシアンによる学習を可能にし、大規模シーンにおいて評価されたシングルGPUベースラインの中で最高の再構成品質を達成し、従来のアウトオブコアベースライン（例えば約1億ガウシアン）や標準的なインメモリ学習（例えば約1100万ガウシアン）を超えるスケーリングを実現する。

すべてのルーブリックが等しく学習効果をもたらすわけではない：RLVRのためのポリシー認識型ルーブリック報酬
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

May 19

ByUtkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

検証可能な報酬を用いた強化学習は、正しさが自動的に確認できる場合に事後学習を極めて効果的にする。しかし、多くの重要なモデル行動は複数の質的基準を同時に満たすことを必要とする。ルーブリックベースの報酬は、プロンプト固有の基準を採点し、それらをスカラー報酬に集約することでこの設定に対処する。しかし、標準的な静的な集約は、人間が割り当てた基準の重要度と、それが最適化信号として現在持つ有用性とを混同する。我々は、この仮定がルーブリック強化学習において崩れることを示す。すなわち、多くの重要な基準は既に飽和しているか、現在到達不可能であり、ロールアウトを区別する基準は必ずしも人間の重みが最も大きい基準ではない。我々はPOW3Rを導入する。これは、ルーブリック目標として人間の重みとカテゴリバランスを保持しつつ、訓練中に基準レベルの報酬重みを適応させる、ポリシー認識型のルーブリック報酬フレームワークである。POW3Rはロールアウトレベルの対比を用いて、現在のポリシーの出力を分離する基準を強調し、基礎となる評価目標を変更せずにGRPO報酬をより情報豊かにする。マルチモーダルおよびテキストのみの設定をカバーする2つのデータセット上の3つのベースポリシーにおいて、POW3Rは30のベースポリシー・指標比較のうち24で勝利し、ルーブリック報酬を用いたバニラGRPOと比較して平均ルーブリック報酬と厳格な完了（すべての要求ルーブリック基準を満たす応答のプロンプト割合）の両方を改善し、2.5～4倍少ない訓練ステップで同じプラトーに達する。したがって、ルーブリック報酬は、最終回答において何が重要であるべきかと、現在のポリシーに何を教えることができるかを区別すべきである。

メッシュ上の三角形分割に依存しないフローマッチングのためのマテルンノイズ
Matérn Noise for Triangulation-Agnostic Flow Matching on Meshes

May 19

ByTianshu Kuai, Arman Maesumi, Daniel Ritchie, Noam Aigerman

本論文は、三角形メッシュ上での信号生成を、三角化に依存しない方法で学習するタスクに取り組む。すなわち、学習済みモデルは異なるメッシュや三角化に対して効果的に適用可能である。実用面では、フローマッチング（FM）パラダイムをメッシュベースの三角化非依存設定に適応させる。理論面では、FMモデルのノイズ除去過程で使用するために、三角化非依存性を持つ特定のノイズ分布を提案する。画像などではノイズ分布の設計は通常容易であるが、三角化非依存な分布を考案することははるかに難しい課題である。我々は、分布の三角化非依存性をそのスペクトルを介して数学的に定義する。次に、特定のガウス確率場であるMatérn過程の離散化がこれらの望ましい性質を持ち、単純かつ効率的なサンプリングアルゴリズムを提供することを示す。これをノイズモデルとして用い、勾配領域におけるメッシュ上の信号学習のための最先端手法であるPoissonNetをノイズ除去器として採用することで、FMを三角化非依存設定に適応させる。我々は、弾性静止状態のサンプリングや人型ロボットの姿勢生成といった複雑なタスクで実験を行う。本手法は、100万以上の三角形を持つメッシュに対して非常に現実的な結果を生成できることが示され、品質と多様性において最先端を大幅に上回る。

ゼロショットSim-to-Realロボット学習：反応的キャッチングにおける巧みな操作の研究
Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching

May 10

ByKejia Ren, Gaotian Wang, Andrew S. Morgan, Kaiyu Hang

器用な操作は物理的負荷が大きく、モデリング誤差や知覚ノイズに対する感度が高いため、シミュレーションから実機への転移（sim-to-real transfer）が極めて困難である。ドメインランダム化（DR）は、このようなタスクにおいて学習方策のロバスト性を向上させるために一般的に用いられるが、従来のDRはエピソードごとに1つのインスタンスをランダム化するだけであり、現実世界のダイナミクスの変動性に対する露出が非常に限られている。この問題に対処するため、我々はドメインランダム化インスタンスセット（DRIS）を提案する。DRISはランダム化された複数のインスタンスを同時に表現・伝搬することで、不確かなダイナミクスに対するより豊かな近似を提供し、複数の可能な結果を考慮した行動を学習する方策を可能にする。理論的解析に裏付けられ、DRISは少数のインスタンス（例えば10個）であっても、よりロバストな方策をもたらし、実機での微調整の必要性を軽減することを示す。我々はこれを、困難なリアクティブキャッチングタスクで実証する。従来のキャッチング設定では、物体を機械的に安定化するように設計されたエンドエフェクタ（例えば、曲面や包み込む形状）が用いられるのに対し、我々のシステムは受動的安定化を提供しない平板を使用しており、このタスクはノイズに非常に敏感で、迅速なリアクティブ動作を必要とする。学習された方策は、不確かさに対して強いロバスト性を示し、信頼性の高いゼロショットのシミュレーションから実機への転移を達成する。

小規模言語モデルのためのコード誘導推論：実行可能なMCQAスキャフォールドの評価
Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

May 12

ByPrateek Biswas, Dhaval Patel, Vedant Khandelwal, Shuxin Lin, Amit Sheth

多肢選択QAベンチマークでは通常、小規模言語モデル（SLM）を直接的な回答者として評価するが、実運用される言語モデルシステムはツール、コード、繰り返しのモデル呼び出しなどの外部スキャフォールドに依存するようになっている。本論文では、実行可能な推論スキャフォールドがMCQAタスクにおけるSLMの性能をいつ向上させるかを測定するための評価プロトコルおよび生成プログラムリソースであるCode-Guided Reasoning（CGR）を導入する。CGRは、正規化された項目インターフェース、直接ソルバープロンプト、ジェネレータープロンプト、Pythonスキャフォールド、ソルバー呼び出しと抽出のヘルパー、3チャンネル結果記録の6つの構成要素を標準化する。ローカルに準備されたMCQAバンドルと6つのメタデータ登録済みソルバーモデルから得られた20,498行の保持結果行において、観測された非ゼロベースライン分割では、マクロ支援正解率が66.21%、直接正解率が38.11%となり、その差は+28.10パーセントポイント（ペアブートストラップ区間[20.32、36.43]）であった。より厳格なAb > 30%直接信号ゲートの下では、マクロ差は+14.11ポイントであった。これらの推定値は記述的なものである。支援推論はより大きなソルバー呼び出し予算を使用し、回答抽出は脆弱であり、Time-MQAには観測された回帰が含まれ、一部の生成プログラムはハードコーディング禁止指示に違反している。CGRは、これらの結果を解釈するために必要なトレースパッケージ（直接回答、支援回答、ジェネレーター側回答、分割定義、生成プログラム、応答メタデータ、監査を含む）を提供する。

効率的な長文脈生成のためのコンテキスト記憶化
Context Memorization for Efficient Long Context Generation

May 18

ByYasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki

近年、大規模言語モデル（LLM）の応用において、推論時にモデルの振る舞いを制御するために、長い条件付けプレフィックスに依存するケースが増加している。プレフィックス拡張推論は効果的であるものの、二つの構造的制約を伴う。すなわち、(i) プレフィックスの影響は生成が進むにつれて弱まり、(ii) プレフィックスに対する注意計算のコストはその長さに比例して増大する。既存のアプローチでは、プレフィックスを圧縮して注意機構内に保持するか、勾配ベースの学習を通じてモデルパラメータに内部化する。前者は依然として推論時にプレフィックスに注意を払う必要があり、後者は学習負荷が高く、プレフィックスの更新に適さない。これらの問題に対処するため、我々は注意状態メモリを提案する。これは、プレフィックスとクエリトークン間の注意状態を事前計算した軽量な参照ベースメモリにプレフィックスを外部化する、訓練不要の手法である。LLaMA-3.1-8Bを用いたManyICLBenchにおいて、本手法は1K～8Kのメモリ予算下で文脈内学習を上回る精度を達成し、8Kでは注意レイテンシを1.36倍削減する。また、NBAベンチマークでは、フルアテンションRAGの性能を、そのメモリフットプリントのわずか20%で凌駕する。

optimize_anything: あらゆるテキストパラメータを最適化するためのユニバーサルAPI
optimize_anything: A Universal API for Optimizing any Text Parameter

May 19

ByLakshya A Agrawal, Donghyun Lee, Shangyin Tan, Wenjie Ma, Karim Elmaaroufi, Rohit Sandadi, Sanjit A. Seshia, Koushik Sen, Dan Klein, Ion Stoica, Joseph E. Gonzalez, Omar Khattab, Alexandros G. Dimakis, Matei Zaharia

単一のLLMベースの最適化システムは、根本的に異なる領域において専門ツールに匹敵できるのか。本稿では、最適化問題をスコア関数で評価されるテキスト成果物の改善として定式化した場合、単一のAIベース最適化システム（単一タスク探索、問題間転移を伴うマルチタスク探索、未見入力への一般化をサポート）が、6つの多様なタスクにわたって最先端の成果を達成することを示す。このシステムは、ジェミニ・フラッシュのARC-AGI精度を32.5%から89.5%へとほぼ3倍に向上させるエージェントアーキテクチャを発見し、クラウドコストを40%削減するスケジューリングアルゴリズムを見つけ出し、87%がPyTorchと同等かそれ以上の性能を発揮するCUDAカーネルを生成し、AlphaEvolveが報告した円充填解（n=26）を上回る。3つの領域にわたるアブレーション解析から、実行可能なサイド情報がスコアのみのフィードバックよりも速い収束と実質的に高い最終スコアをもたらすこと、また、マルチタスク探索は、問題間転移を通じて同一のタスク当たり予算を与えられた場合に独立した最適化よりも優れており、その利点は関連タスクの数に応じて拡大することが明らかになった。これらの結果を総合すると、LLMベースの探索を用いたテキスト最適化は汎用問題解決パラダイムであり、従来は領域固有のアルゴリズムを必要としていたタスクを単一のフレームワークの下で統合することを初めて示す。我々は、GEPAプロジェクトの一部として、複数のバックエンドをサポートするoptimize\_anythingをhttps://github.com/gepa-ai/gepaでオープンソース公開する。

エンコーダベースの言語モデルにおいて、著者性信号はどこに現れるのか？
Where Does Authorship Signal Emerge in Encoder-Based Language Models?

May 19

ByFrancis Kulumba, Guillaume Vimont, Laurent Romary, Florian Cafiero

同一の事前学習済みエンコーダ、データ、損失関数を用いてファインチューニングされた著者推定モデルであっても、そのスコアリング機構のみに依存して性能が最大4倍も異なる可能性がある。本稿では、メカニズム的解釈可能性ツールを用いてこの性能差を説明する。単語長、句読点密度、機能語頻度といった文体特徴は、事前学習済みの既製の制御用エンコーダを含むすべてのモデルの全層で同等に利用可能であり、したがって性能差は表現の質に起因するものではない。代わりに、因果介入により、スコアラーがエンコーダ内で著者シグナルを統合する場所を決定することが示される。平均プーリングは前半から中盤の層に統合を強制する一方、後期相互作用はそれを後半の層に先送りする。さらに、この違いが各スコアラーの勾配構造から導出されることを明らかにし、学習ダイナミクスはその違いに従う異なる学習軌跡を示すことを明らかにする。

ESI-Bench: 知覚・行動ループを閉じる身体化空間知能に向けて
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

May 18

ByYining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

空間知能は知覚−行動のループを通じて展開する。すなわち、エージェントは観測を得るために行動し、行動の関数として観測がどのように変化するかを推論する。見えているものを受動的に処理するのではなく、遮蔽された構造、動態、内包性、機能性といった、受動的な知覚だけでは解像できないもの——を能動的に明らかにする。本研究では、観測者が行為者として位置づけられ、神託的な観測を仮定する従来の空間知能の定式化を超える。我々は、OmniGibson上に構築され、Spelkeの核となる知識体系に基づく、10タスクカテゴリ・29サブカテゴリにわたる包括的な身体化空間知能ベンチマーク、ESI-BENCHを導入する。エージェントは、どの能力（知覚、移動、操作）を展開するか、そしてそれらをどのように順序づけてタスクに関連する証拠を能動的に蓄積するかを決定しなければならない。最先端のマルチモーダル大規模言語モデル（MLLM）を用いた広範な実験の結果、能動的探索は受動的なものより大幅に優れており、明示的な指示なしにエージェントが創発的な空間戦略を自発的に発見する一方、ランダムな多視点は、はるかに多くの画像を消費するにもかかわらず信号ではなくノイズを加えることが多いことが判明した。失敗の大半は、知覚の弱さではなく、行動盲に起因する。すなわち、誤った行動選択が貧弱な観測を生み、それが連鎖的な誤りを引き起こす。明示的な3D接地は奥行きに敏感なタスクにおける推論を安定させるが、不完全な3D表現は空間関係を歪めることで2Dベースラインよりも有害であることが示される。さらに、人間を対象とした研究により、人間が反証となる視点を求め、矛盾に直面して信念を修正するのとは異なり、モデルは証拠の質にかかわらず高い確信度で早々にコミットし、より良い知覚やより多くの身体化されたインタラクションだけでは埋められないメタ認知のギャップを露呈することが明らかになった。

段階適応型トークン選択による効率的オムニモーダルLLM
Stage-adaptive Token Selection for Efficient Omni-modal LLMs

May 19

ByZijie Xin, Jie Yang, Ruixiang Zhao, Tianyi Wang, Fengyun Rao, Jing Lyu, Xirong Li

全モーダル大規模言語モデル（om-LLM）は、映像と音声をウィンドウレベルでインターリーブされた時間的に整合したトークン系列にエンコードすることで、統一的な視聴覚理解を実現する。しかし、これらの高密度な非言語トークンをLLM全体で処理するには、多大な計算負荷が伴う。学習不要のトークン選択はこのコストを削減できるが、既存手法は視覚入力のみに焦点を当てるか、固定のモーダル別比率でLLMに入力する前にのみom-LLMトークンを刈り込むため、クロスモーダルトークンの重要度が層をまたいでどのように変化するかを捉えられていない。この制限に対処するため、我々はまずom-LLMにおける層別トークン依存性を解析する。その結果、視覚と音声の依存性はブロック単位のパターンを示し、深層になるにつれて徐々に弱まることが分かった。これは、クロスモーダル融合後に多くの後層の非言語トークンが冗長になることを示唆している。この観察に基づき、我々は効率的なom-LLM推論のための学習不要かつ段階適応型トークン選択手法SEATSを提案する。LLMの前段では、注意重み付き多様性選択により時空間冗長性を除去する。LLM内部では、ブロック間でトークンを段階的に刈り込み、クエリ関連度スコアを用いて時間ウィンドウからモーダルへ保持予算を動的に配分する。後層では、クロスモーダル融合が完了次第、残りの非言語トークンをすべて除去する。Qwen2.5-OmniおよびQwen3-Omniを用いた実験により、SEATSが推論効率を効果的に向上させることが示された。視覚トークンと音声トークンの10%のみを保持した場合、9.3倍のFLOPs削減と4.8倍のプリフィル高速化を達成しつつ、元の性能の96.3%を維持する。

エコーフォーシング：インタラクティブな長編動画生成のためのシーン記憶フレームワーク
Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

May 15

ByMingqiang Wu, Weilun Feng, Zhefeng Zhang, Haotong Qin, Yuqi Li, Guoxin Fan, Xiaokun Liu, Zhulin An, Libo Huang, Yongjun Xu, Chuanguang Yang

自己回帰ビデオ拡散モデルは、局所注意とKVキャッシングを通じて、オープンエンドな生成を可能にする。しかし、既存の学習不要な長尺ビデオ最適化手法は、主に単一プロンプト下での安定した拡張に焦点を当てており、プロンプトの切り替え、古いシーンの忘却、過去のシーンの想起といったインタラクティブなシナリオへの対応が困難である。我々は、その核心的なボトルネックが過去のKV状態の機能的絡み合いにあると特定する。すなわち、安定したアンカーと最近のダイナミクスが同一のキャッシュポリシーによって扱われるため、古くなった背景の汚染、新しいプロンプトへの応答遅延、長距離記憶の喪失を引き起こす。この問題に対処するため、我々はEcho-Forcingを提案する。これは、インタラクティブな長尺ビデオ生成に特化した学習不要のシーンメモリフレームワークであり、以下の3つの中核メカニズムを備える。（1）階層的時間記憶：相対RoPEの下で、安定アンカー、圧縮履歴、最近のウィンドウを分離する。（2）シーン想起フレーム：過去のシーンを空間構造化されたKV表現に圧縮し、長期的な想起を支援する。（3）差分認識メモリ減衰：新旧シーン間の差異に応じて、競合するトークンを適応的に忘却する。これらの設計に基づき、Echo-Forcingは、制限付きキャッシュ予算の下で、スムーズな遷移、ハードカット、長距離シーン想起を統一的にサポートする。VBench-Longにおける広範な評価により、Echo-Forcingが長尺ビデオ生成とインタラクティブビデオ生成の両方の設定で最良の総合性能を達成することを実証した。我々のコードはhttps://github.com/mingqiangWu/Echo-Forcingで公開されている。

自己生成データを用いた中間訓練は言語モデルにおける強化学習を改善する
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

May 8

ByAswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

大規模言語モデル（LLM）における強化学習（RL）の有効性は、RLの前および最中に使用されるデータの性質と多様性に依存する。特に、推論問題はしばしば異なる推論形式に依存する複数の方法でアプローチすることが可能であり、訓練データにおいてそうしたアプローチの限られた範囲のみに触れることは、RLの有効性を制限する可能性がある。この動機に基づき、我々はRL訓練前の中間段階として、多様な自己生成データを中間訓練に用いることを調査する。具体的には、ジョージ・ポリアの問題解決アプローチに従ったブートストラップ型データ生成フレームワークを採用し、訓練データ内の各問題に対して正解の複数のバリアントを生成した上で、ファインチューニングを実施する。まず、このようなデータによる中間訓練がRLを改善する理論的視点を提供し、ポリシー勾配更新が複数のアプローチの組み合わせを促進する仕組みを説明する。次に、我々の中間訓練データで初期化されたRL訓練モデルが、様々な数学的推論ベンチマークや、コード生成、物語推論といった他のOODタスクにおいて一貫した改善を達成することを実証する。全体として、我々の調査研究は、言語モデルが自己生成データを通じて複数の問題解決アプローチを学習することが、その後のRLに寄与することを示している。

エシカル・ハイパーベロシティ（EHV）：エージェントシステムのための証明可能な決定論的ガバナンス対応JITコンパイラアーキテクチャ
Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

May 18

ByRiddhi Mohan Sharma

自律エージェントシステムが規制された重要インフラにわたって拡大するにつれ、高頻度なポリシー更新を機械的かつハードウェアに根ざした形で強制する仕組みが欠如していることが、根本的な安全性のギャラリーとなっている。本論文では、実行時におけるAIガバナンスポリシーの形式検証を実現する新たなアーキテクチャフレームワーク「エシカル・ハイパーベロシティ（EHV）」を提案する。14～30日間の遅延を伴う遡及的監査フレームワーク（ISO/IEC 42001、NIST AI RMF）とは異なり、EHVはガバナンス認識型ジャストインタイム（JIT）コンパイラを介してポリシー強制ポイント（PEP）を推論パイプライン内に再配置する。競合回避型レプリケーションデータ型（CRDT）を用いたポリシー同期と、信頼実行環境（TEE）内でのエポックベースのアテステーションキャッシングを統合することにより、EHVはサブミリ秒形式決定性（SMFD）を達成する。TLA+形式検証を通じて、システムの制限された動作状態空間内では非準拠なエージェント行動が計算的に到達不可能であることを示す。さらに、O(1)実行時強制により、展開速度とガバナンスの整合性の間の従来のトレードオフを排除し、ガバナンス遅延をO(日)からO(1)に低減できることを証明する。

CopT: 連続空間における対照的オン方策思考と汎用・エージェント的推論
CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

May 19

ByDachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee

思考連鎖（CoT）は、大規模言語モデル（LLM）から推論能力を引き出すための標準的な手法である。しかし、一般的なCoTパラダイムでは、回答の前提として思考を位置づけるため、モデルが拡張的な思考を行う前に回答を特定できる場合でも、妥当な回答へのアクセスが遅れ、不要なトークンコストが発生する。このような動作は「パフォーマティブ推論」と呼ばれる。本論文では、思考と回答の通常の順序を逆転させた、再構成型推論パイプラインであるCopTを提案する。CopTは、思考の前に回答を行うのではなく、まずドラフト回答を生成し、そのドラフト回答に基づく後続のオン・ポリシー思考を呼び出し、振り返りと修正を行う。ドラフト回答を信頼すべきかどうかを評価するため、CopTは連続埋め込みを推論時の対照検証器として再解釈する。具体的には、離散トークン入力と連続埋め込み入力の下でモデルが同じ生成トークンに対して示すサポートを対比し、回答信頼性に関する系列レベルの逆KL推定器を導出する。本解析により、特定の仮定の下で期待推定値が未解決の潜在状態と発行された回答トークン間の相互情報量に等しくなることが示され、なぜこの推定器が潜在状態における任意の不確実性ではなく回答関連の不確実性を捉えるのかが説明される。回答が不十分な信頼性と判断された場合、CopTはさらにオン・ポリシー思考を実行し、その際に第2のKL推定器がドラフト回答の可視性を動的に制御することで、有用な部分情報を保持しつつ、信頼できない内容に誤導されるリスクを低減する。数学、コーディング、エージェント推論タスクにおいて、CopTは追加学習なしで最大23%のピーク精度改善と、同等以上の精度で最大57%のトークン使用量削減を達成する。コードはhttps://github.com/sdc17/CopTで公開されている。

エディターズチョイス：原子実体分析による画像編集における抽象的意図の評価
Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis

May 14

ByMor Ventura, Roy Hirsch, Yonatan Bitton, Regev Cohen, Roi Reichart

人間は自然に「雰囲気」のような抽象的な概念を通じてコミュニケーションをとる。しかしながら、現在の画像編集ベンチマークは主に明示的で文字通りのコマンドに焦点を当てており、抽象的な指示はほとんど調査されていない。本研究では、まず抽象的画像編集の定義と分類体系を形式化する。この困難な領域における指示追従性を測定するために、我々はEntity-Rubricsを導入する。これは抽象的な編集を個々のエンティティレベルの評価に分解し、人間の判断と強い相関を達成するフレームワークである。このフレームワークに加えて、多様な実世界シーンにわたる抽象的画像編集に特化した最初のベンチマークであるAbstractEditを提供する。このデータセットで11の主要モデルを評価した結果、標準的なアーキテクチャは意図と保存のバランスを取るのに苦労し、一般的に過小編集または過剰編集に陥るという根本的な課題が明らかになった。我々の分析は、有意義な改善を推進するには、高度なLLMテキストエンコーダと反復的思考の統合に大きく依存することを示している。将来的には、我々のエンティティベースのパラダイムは評価を超えて一般化し、報酬モデルとして機能したり、モデルが抽象的なコミュニケーションを正しく解釈できるようにしたり、テスト時の批評ループで特定の失敗を強調したりすることができる。最終的に、本研究がシームレスなマルチモーダル対話への足がかりとなり、機械の硬直的な実行と人間の自然で自由なコミュニケーション方法との間のギャップを埋めることを願っている。

言語切り替えトリガーは言語モデルを通じて潜在的な迂回路を辿る
Language-Switching Triggers Take a Latent Detour Through Language Models

May 18

ByFrancis Kulumba, Wissam Antoun, Théo Lasnier, Benoît Sagot, Djamé Seddah

言語モデルに対するバックドア攻撃はセキュリティ上の懸念が高まっているが、トリガーシーケンスがモデルの計算を乗っ取る内部メカニズムは未だに十分に理解されていない。我々は、8Bパラメータの自己回帰型言語モデルにおける言語切り替えバックドアの根底にある回路を特定した。この回路では、3語からなるラテントリガー（9トークン）が英語の出力をフランス語へと転換させる。我々はこの回路を3つのフェーズに分解する。(1) 初期層の分散型アテンションヘッドがトリガートークンを最終系列位置に合成する。(2) その結果生じる信号は、モデルの自然言語識別方向に直交する部分空間において中間層を伝播する。(3) 最終層のMLPはこの潜在信号をフランス語のロジットに変換する。回路全体は単一位置における逐次的なボトルネックを経由する。任意の層でその位置を破損させるとトリガーは完全に無効化されるが、同時にモデルの能力も損なわれる。直交する潜在符号化は、中間表現において言語らしい信号を探索する防御手法がこのトリガーを完全に見逃すことを示唆している。

DocAtlas: 80以上の言語にわたる多言語文書理解
DocAtlas: Multilingual Document Understanding Across 80+ Languages

May 12

ByAhmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

低リソース言語向けの多言語文書理解は、訓練データの不足と既存のバイアスを永続させるモデルベースのアノテーションパイプラインにより依然として限定的である。本稿では、82言語と9つの評価タスクをカバーする高忠実度OCRデータセットとベンチマークを構築するフレームワークDocAtlasを提案する。我々のデュアルパイプライン、すなわちネイティブDOCX文書の差分レンダリングと右横書きスクリプト向けの合成LaTeXベース生成は、コアアノテーションに学習モデルを用いることなく、レイアウト、テキスト、コンポーネントタイプをエンコードする統一DocTag形式で精密な構造アノテーションを生成する。16の最先端モデルを評価した結果、低リソーススクリプトにおける持続的なギャップが明らかとなった。レンダリング由来の正解データを正信号として用いる直接優先度最適化（DPO）が、教師ありファインチューニングがドメイン外性能を最大21%低下させるのに対し、ドメイン内（+1.9%）およびドメイン外（+1.8%）の精度をベース言語の顕著な劣化なく安定的に向上させることを示す。最良のバリエーションであるDocAtlas-DeepSeekは、最強のベースラインを+1.7%上回る。

Omni-DuplexEval: リアルタイム双方向全モーダル対話の評価
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

May 17

ByChaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen

実世界のシナリオで動作するマルチモーダルAIシステムにとって、ストリーミング入力を継続的に処理し、適切なタイミングで応答するリアルタイム双方向対話は不可欠である。しかし、既存のマルチモーダル大規模言語モデル（MLLMs）の大半はオフライン設定で評価されており、全映像入力を処理してから応答を生成する。最近の研究でリアルタイム双方向MLLMの探求が始まっているものの、この設定に対する包括的なベンチマークや自動評価手法は未だ存在しない。このギャップを埋めるため、我々はリアルタイム双方向対話を体系的に評価するベンチマーク「Omni-DuplexEval」を提案する。本ベンチマークは、以下の2つの補完的なシナリオで構成される：（1）リアルタイム記述：時々刻々と変化するマルチモーダル入力を追跡し、時間的に整合した連続応答を生成する能力を評価。（2）プロアクティブリマインダー：顕著なイベントを特定し、適切なタイミングで応答する能力を評価。Omni-DuplexEvalは、660本の動画に細粒度の人手アノテーションラベルと精密な時間メタデータを付与し、実世界シナリオに基づく9タスクを網羅する。すべての問題はオープンエンド形式である。さらに、LLM-as-a-Judgeに基づく自動評価フレームワークを導入する。これは、応答内容の整合性と応答タイミングをタイムスタンプ認識と逐次推論により同時評価し、人間の判断と高い一致を示す。最先端の双方向MLLMを用いた実験では、顕著な限界が明らかになった。最高性能モデルでも全体スコアは39.6%にとどまり、プロアクティブリマインダーでは20.0%であった。分析により、2つの主要課題が特定された：モデルはタイムリーな応答と首尾一貫した全体的な内容生成のバランスに苦慮し、また「いつ応答すべきか」と「何を生成すべきか」の両方を判断できていない。本研究がMLLMのさらなる進展に貢献することを期待する。

推論モデルはなぜカバレッジを失うのか？データと分岐点の役割
Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road

May 16

ByNgoc-Hieu Nguyen, Parshin Shojaee, Phuc Minh Nguyen, Nan Zhang, Chandan K Reddy, Khoa D Doan, Rui Zhang

大規模言語モデルの最近の進展により、複雑なタスクに特化した微調整手順を通じて強力な性能を示す推論モデルが出現している。これらの手法はpass@1精度を確実に向上させる一方、先行研究ではカバレッジ収縮挙動、すなわちベースモデルと比較してpass@kが低下することが観察されている。本稿では、SFTベースのポストトレーニング下で生じる推論収縮について調査する。我々は、この挙動が微調整データの特性、特にモデルが複数の妥当な推論経路を持つ判別困難なパターンに直面する「決定点」あるいは「分岐点」シナリオに起因すると仮説を立てる。この仮説を検証するため、グラフ分岐における判別不可能なノードや推論モードにわたる、かかる決定点設定を模倣した制御されたケーススタディを設計する。これらの設定におけるポストトレーニングのダイナミクスを追跡した結果、収縮現象は訓練データにおける決定点シナリオの頻度と強く相関していることが判明した。また、この収縮挙動は、決定点を対象としたデータ合成設計と、より体系的な多様性促進型デコーディング機構によって部分的に緩和可能であることを示す。本研究の知見は、データ中心の要因が推論モデルにおける収縮の主要な駆動力であることを特定し、多様性を考慮した設計がそれを制御する効果的な手段であることを強調する。

バグか特徴か^2：重みドリフト、活性化スパース性、およびスパイク
Bug or Feature^2: Weight Drift, Activation Sparsity, and Spikes

May 17

ByEgor Shvetsov, Aleksandr Serkov, Shokorov Viacheslav, Redko Dmitry, Vladislav Goloshchapov, Evgeny Burnaev

現代のニューラルアーキテクチャの設計は経験的な選択の積み重ねによって収束してきたが、その学習ダイナミクスを支配するメカニズムは部分的にしか理解されていない。我々は、標準的な損失関数と正にバイアスされた活性化関数との相互作用によって引き起こされる負の重みドリフトを特定し分析する。MSEまたはクロスエントロピー損失の下では、初期化時点での正のプレ活性化に関する勾配が期待値で非負となり、学習初期に下流の重みを負の値に駆動することを証明する。このドリフトはデータではなく最適化に内在するものであり、アーキテクチャ（MLP、ResNet、ViT、GPT-nano、MP-SENe）や非対称活性化関数（ReLU、GELU、SiLU）を問わず持続する。ReLUと組み合わさることで、重みドリフトはGPT-nanoにおいて最大90%に達する活性化スパース性を生み出す。我々は79の構成にわたってスパース性と精度のトレードオフを特徴付け、特に70%以上の活性化スパース性において急峻な精度の崖を特定する。ReLU²はGPT-nanoで良好なスパース性と精度の比を達成するが、中間トランスフォーマー層において特定された活性化スパイクを病理的に増幅する。クリッピングはこれを解決しつつ二乗の表現上の利点を保持する：クリップされたReLU²はそのクリップされていないバージョンよりも優れ、GELU²はGPT-nanoで最低の検証損失を達成する。コードはhttps://github.com/On-Point-RND/BugOrFeatureで入手可能である。

Be Kind, Rewrite：書き換えによる良性投影がLLMデータポイズニング攻撃を防御する
Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

May 18

ByJohn T. Halloran, Noopur S. Bhatt

大規模言語モデル（LLM）は、トリガーベースの有害なコンテンツを用いて訓練サンプルが毒されるバックドア攻撃（BA）に対して非常に脆弱である。さらに、既存の防御手法はBAパターンを広範囲にテストした場合に効果がないことが証明されている。BAに対抗するため、我々はLLMによる書き換えをデータポイズニングに対するプロアクティブな防御として活用することを探求する。まず、LLM書き換えがオープンブック良性サンプル（OBBRと称する）を利用する場合、書き換え出力が良性である確率がクローズドブック書き換えの場合より厳密に高いことを理論的に示す。したがって、OBBRは訓練サンプルを良性プロンプトの空間に射影することで有害コンテンツを中和する。次に、従来の防御とは対照的に、OBBRが既存の多くのBAを効果的に軽減することを示す。すなわち、5つの既知のBAと4つの広く使用されるLLMにおいて、OBBRは最先端のBA防御と比較して平均51%、クローズドブック書き換え手法と比較して25.7%安全性性能を向上させる。最後に、OBBRが他のBA防御と比較して計算効率が良く、ファインチューニング後の自然言語タスクにおけるモデル性能を低下させず、非トリガーベースのデータポイズニング攻撃に対しても防御可能であることを示す。

ベースモデルはAI検出器には人間のように見える
Base Models Look Human To AI Detectors

May 19

ByYixuan Even Xu, Ziqian Zhong, Aditi Raghunathan, Fei Fang, J. Zico Kolter

AI生成テキストが実世界に大規模に導入されるにつれ、教育や学術的誠実性のワークフローにおいて、機関は商用AIテキスト検出器をますます利用するようになっている。本稿では、こうしたシステムに関する驚くべき実証的知見を報告する。GPTZeroおよびPangramで評価した場合、ベースモデルによって生成されたテキストは圧倒的に人間らしいと判定されることが多いのに対し、指示チューニングされたモデル（instruction-tuned counterparts）によるテキストはそうではない。この観察に基づき、我々は反復パラフレーズによる人間化（Humanization by Iterative Paraphrasing, HIP）を提案する。これは検出器に依存しないパイプラインであり、ベースモデルを最小限のファインチューニングでパラフレーザーに変換し、それを反復的に適用する。検証したベースラインと比較して、HIPは商用検出器に対して意味保存と検出回避の間でより強力なトレードオフを実現する。Llama-3およびQwen-3ファミリーにおいて、モデルサイズ0.6Bから70Bにわたり、HIPは一貫して検出器における人間らしさ（human-likeness）を向上させる。我々の知見は、現在の検出器が、機械生成テキストの不変的な概念よりも、指示チューニングのアーティファクトや局所的な文脈を追跡していることを示唆している。このことは、これらの要因をより明示的にモデル化する検出器の設計を求めるものである。

コンピュータサイエンスの会議は否認不能な実験結果を要求すべきである
Computer Science Conferences Should Require Nonrepudiable Experimental Results

May 9

ByMamadou K. Keita, Christopher Homan

本ポジションペーパーは、計算機科学の会議において、実験結果に対する改ざん防止かつ否認不可の証明を必須とするべきだと主張する。我々は根底にある問題を「実験の否認不可性」と名付ける。準拠プロトコルは、論文内の数値を、著者が後で改変したり否認したりできない形で、実際に実行された計算に結びつけるものでなければならない。現在のシステムは、自己申告チェックリスト、任意のコード共有、著者管理のログ記録に依存している。これらのメカニズムはいずれも、査読者が確認できない問い、すなわち「論文で記述されたコードが、論文で報告された数値を本当に生成したのか」に答えるものではない。我々はこの問題を形式的に定義し、あらゆる準拠プロトコルが満たすべきセキュリティ特性を述べ、現在の手法では防げない攻撃を含む脅威モデルを記述する。この問題が解決可能であることを示すため、我々は訓練データにアクセスせずに署名付きレポートを生成するリファレンス実装として、Go言語によるK-Veritasを構築した。K-Veritasはテストベッドであり、完成された解答ではない。我々は会議とコミュニティに対し、否認不可性を第一級の要件として扱い、そのためのオープンで独立した標準の構築に協力するよう呼びかける。

S-Bus: マルチエージェントLLMの状態調整のための自動リードセット再構築
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination

May 16

BySajjad Khan

可変な自然言語状態を共有する並行LLMエージェントは、構造的競合状態（SRC）を引き起こす。すなわち、書き込み-書き込み競合およびシャード間の古い読み取り競合であり、これらはエージェントの出力を静かに破損させる。既存のマルチエージェントフレームワーク（LangGraph、CrewAI、AutoGen）は、共有状態に対する書き込み所有権のセマンティクスを提供しない。本稿ではS-Busを提案する。これはHTTPミドルウェアであり、その中心的なメカニズムはサーバーサイドのDeliveryLogである。DeliveryLogはエージェントごとのHTTP GET操作のログであり、HTTP/1.1のもとでエージェントSDKの変更なしに、コミット時に各エージェントの読み取りセットを自動的に再構築する。DeliveryLogが提供する一貫性特性、すなわち観測可能読み取り分離（ORI）は、読み取りセットのHTTP観測可能な射影に対する部分的な因果的一貫性であり、エージェントが共有シャードを介して協調する際の構造的競合状態を防ぐ。本稿の3つの貢献：（C1）HTTPトラフィックに基づく自動的な読み取りセット再構築のためのDeliveryLog機構。3層の機械的証拠を伴う：ReadSetSoundnessとORICommitSafetyはTLAPSで機械検証済み（1つの型公理を除く）；N=3での徹底的なTLC検証（20,763,484の異なる状態、違反ゼロ）；Dafnyは9つの帰納的音響性補題を証明。（C2）共有シャード競合スイープにおけるPostgreSQL 17 SERIALIZABLEおよびRedis 7 WATCH/MULTIに対する実証的な構造的競合防止同等性：427,308件のアクティブなHTTP-409競合において、3つのバックエンドすべてでタイプI破損がゼロ。（C3）ORIの動作範囲はトポロジーに依存する：専用シャードワークロードでは意味的に中立；単一シャードの協調書き込みでは有害である。なぜなら、保存が同時矛盾を伝播させるからである。ソースコード：https://github.com/sajjadanwar0/sbus

SAGA: 適応的時間的コンフォーマル予測を用いたマルチホライゾン確率予測のためのシーケンス適応型生成アーキテクチャ
SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

May 18

ByGustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert

財務省や中央銀行が用いるミクロシミュレーションモデルは、生涯所得に関するパラメトリック過程に依存しており、これは条件付き分布の第一次および第二次モーメントのみを捉え、長距離の非線形構造を見落としている。我々は、不規則な表形式パネル系列向けのデコーダのみのトランスフォーマーであるSAGAを提案するとともに、有限サンプル限界被覆率保証を備えた個人レベルの予測区間を提供する分割コンフォーマルキャリブレーションラッパーを組み合わせる。1990年から2022年にわたるスウェーデンの縦断的LISA登録データ（2,143,817人、61,284,903人年）で訓練された本モデルは、1年から30年の期間における年間労働所得を予測し、モンテカルロ法により現在割引された生涯所得分布に集約する。標準的なGuvenen、Karahan、Ozkan、Songのパラメトリック過程や、表形式およびリカレントのベースラインと比較して、SAGAは10年期間で連続ランク確率スコアを31.9％削減し、20年期間で平均絶対誤差を37.7％削減する。コンフォーマル区間は、限界的には0.4パーセントポイント以内、最悪ケースの人口統計サブグループでは2.4パーセントポイント以内で名目被覆率を達成する。復元された生涯所得のジニ係数は0.327であり、部分的に観測された真値0.341、GKOS推定値0.378と比較される。モデル重み、キャリブレーションテーブル、および合成等価データセットが公開され、保護されたSCB MONA環境外での再現が可能となる。

RoPEは長いコンテキストにおいて、位置もトークンも区別しないことが証明可能である。
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

May 15

ByYufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng

我々は、Transformerベースの長文脈言語モデルにおける回転位置埋め込み（RoPE）の本質的な限界を特定する。理論的解析では、文脈の具体的な内容から抽象化し、その長さのみに依存する。我々は、文脈長が増加するにつれて、RoPEベースの注意機構が予測不可能になり、その有効性の中核となる二つの特性を失うことを証明する。第一に、局所性バイアスを失う：RoPEは、近い位置を大幅に離れた位置よりも優先する傾向がなくなる。第二に、トークンの関連性における一貫性を失う：ある位置で別の位置より高い注意スコアを受け取るキーベクトルが、別の位置では低いスコアを受け取る可能性がある。いずれの場合も、失敗確率は0.5に近づき、ランダムな推測と変わらなくなる。さらに、キートークンが別の位置に移動したり、別のトークンに置き換えられたりしても注意スコアが変わらないことがあり、これは位置やトークンの識別に失敗していることを示す。RoPEベースの調整は、位置の識別とトークンの識別の間にトレードオフをもたらすが、両方を同時に維持することはできない。今日の長文脈モデルで一般的な慣行であるRoPEベースのハイパーパラメータを増加させることは、異なるトークンの識別に役立つが、位置を識別する能力を不可避的に犠牲にする。我々の実証分析は、マルチヘッド・マルチレイヤーアーキテクチャではこれらの限界を克服するには不十分であることを示している。これらの知見は、将来のTransformer長文脈言語モデルにおいて、位置とトークンの順序を符号化する根本的に新しいメカニズムが必要となる可能性を示唆している。