HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

36 papers found

現在の観測を超えて：制御可能な非マルコフゲームにおけるマルチモーダル大規模言語モデルの評価
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

Jun 17

ByShengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang

マルチモーダル基盤モデルを閉ループポリシーとして展開する際、すでに視認できなくなった観測に基づいて行動を条件付ける必要性が高まっている。しかし、既存のベンチマークは、完全な状態を公開するか、隠れ状態の再構成を他のエージェントスキルと混同するか、エピソード終了後にのみ想起をテストするかのいずれかである。本稿では、ベースモデルが過去の観測を再構成し、マルチステップの相互作用中にそれに基づいて行動する能力を分離評価するために設計されたベンチマークスイートであるRNG-Bench（Reconstructive Non-Markov Games）を紹介する。RNG-Benchには、相補的な二つのゲームが含まれる：特定の位置で一時的に公開されたカードの同一性を後で想起しなければならないMatching Pairs と、自己中心的な視点を空間マップに統合しなければならない3D Mazeである。両ゲームは、グリッドサイズ、視覚パターン、観測モダリティという3つの制御された難易度軸を持つ統一されたフレームワークで評価される。さらに本ベンチマークは、インスタンスレベルのばらつきを制御するための対決プロトコルと、忘却と不適切な行動選択を分離するMemory Gap指標を導入する。最も難しい設定では、1エピソードあたり約128Kトークンと350の画像入力を必要とし、最先端のMLLMによって飽和状態には程遠い。Memory Gap分析により、残差誤差の大部分は、最適でない意思決定ではなく、初期の観測の忘却に起因することが示された。最後に、最適ポリシーのロールアウトとフィルタリングされたモデルのデモンストレーションでQwen3.5-9Bをファインチューニングすることで、RNG-Benchの性能が向上し、既存のベンチマークへの転移が可能となり、一般的なマルチモーダル能力を損なわない。

MolmoMotion: 言語指示による3D点軌跡の予測
MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Jun 17

ByJianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna

動作予測は視覚的知能の中核をなす。エージェントは、行動計画、物理的相互作用の推論、現実的な未来の合成を行うために、物体がどのように動くかを予測しなければならない。我々は、ワールド座標系における3D点が、クラス非依存、視点安定、コンパクトであり、下流タスクに直接利用可能な汎用的表現を提供すると主張する。我々は、目標条件付き3D点動作予測（goal-conditioned 3D point motion forecasting）というタスクを定式化する。すなわち、短い視覚的な履歴、注目物体上の一連の3Dクエリ点、意図された目標の言語記述が与えられたとき、モデルは各点の将来の3D軌跡を予測する。我々は、このタスクを大規模に研究するための完全なスタックを導入する。(1) MolmoMotion-1Mは、116万本の制約のない動画から注釈付けされた、動作記述付き物体接地型3D点軌跡の大規模コーパスである。(2) PointMotionBenchは、111の物体カテゴリと61の動作タイプにわたる、人間検証済みのベンチマークである。(3) MolmoMotionは、自己回帰的座標予測とフローマッチングに基づく軌跡生成の両方をサポートする汎用動作予測モデルである。MolmoMotionは、異なる言語指示に応じて多様な動作パターンを正確に予測し、PointMotionBenchにおいて既存の動作予測ベースラインを大幅に上回る。最後に、学習された3D動作事前知識が下流アプリケーションに良好に転移することを示す。この事前知識はロボット操作の学習効率と汎化性能を向上させ、その予測軌跡は生成モデルに対して、より現実的な物体動作で動画を合成するための効果的な動作ガイダンスを提供する。

Kairos: 物理AIのためのネイティブ世界モデルスタック
Kairos: A Native World Model Stack for Physical AI

Jun 16

ByKairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang

世界モデルは、受動的な視覚生成器から物理AIの基盤的かつ運用可能なインフラへと移行しつつある。それらは、異種の経験からネイティブに世界知識を獲得し、長期間にわたって持続的な状態を維持し、実際の展開制約の中で効率的に実行されなければならない。本稿では、これらの要件を中心に設計されたネイティブな世界モデルスタック「Kairos」を紹介する。(1) Kairosは、クロス・エンボディメント・データカリキュラム（異なる身体性にまたがるデータカリキュラム）に基づくネイティブ事前学習パラダイムを開拓することで世界を学習する。このカリキュラムは、オープンワールドビデオ、人間の行動データ、ロボットインタラクションを、段階的な発達経路に整理する。(2) Kairosは、ハイブリッド線形時間的注意機構を備えたネイティブ統合アーキテクチャによって、世界の統一的な理解、生成、予測を通じて世界を維持する。ここでは、スライディングウィンドウ注意機構が局所的なダイナミクスを捉え、拡張スライディングウィンドウが中距離の依存関係を捉え、ゲート付き線形注意機構が持続的な大域的記憶を保持する。我々は、この時間的分割が誤差の蓄積を厳密に制限し、長期にわたる状態伝搬を数学的に保証することを示す形式的な理論的限界を確立する。(3) Kairosは、デプロイメントを考慮したシステム共同設計を組み込むことで世界を実行し、実世界の観測・行動・フィードバックループにおいて、サーバーおよびコンシューマーグレードのハードウェアで低遅延のロールアウト生成をサポートする。身体性世界モデル、長期 horizons、行動ポリシーのベンチマークにおける実験結果は、Kairosが強力な効率と性能のトレードオフを提供しながら、最高レベルの性能を達成することを示している。これらの結果は総合的に、Kairosを将来の自己進化型物理インテリジェンスのための統合的運用基盤として位置づける。

Guava: 身体的操作のための効果的で普遍的なハーネス
Guava: An Effective and Universal Harness for Embodied Manipulation

Jun 16

ByHaowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao

大規模な視覚言語データで学習された言語モデルは、身体性エージェントにおいて強力な可能性を示している。身体的なツール使用を通じてモデルを活用することは、高レベルの推論と知覚、計画、制御のための外部モジュールを組み合わせることで、エンドツーエンドの視覚言語行動システムに代わる有望な方法を提供する。しかしながら、身体的操作において効果的なハーネスとは何か、またそのようなハーネスが幅広い推論モデルの身体的能力をどの程度まで解放できるかは、依然として明らかではない。本稿では、エージェントのワークフロー、行動空間、観測空間の設計空間を系統的に探求することにより開発された、身体的なツール使用のためのハーネスフレームワークであるGuavaを紹介する。本研究では、効果的な身体性エージェントのための三つの重要な要素、すなわち反復的な知覚・推論・行動ループ、意味的な行動抽象化、およびマルチモーダル観測を特定する。これらの設計原則が小型モデルにおいても普遍的であるかを理解するため、我々は完全にシミュレーション内で収集された2000未満の軌道を用いて、身体的操作能力を4Bのオープンソースモデルに蒸留するエンドツーエンドの学習パイプラインを開発する。シミュレーション環境と実世界環境の両方における実験結果は、先端的なプロプライエタリモデルに匹敵する性能を示すとともに、未知の物体、新しい指示、長期的タスクに対する強い汎化を示す。これらの結果は、適切に設計されたハーネスが身体的操作のためのスケーラブルでモデルに依存しないインターフェースとして機能し、最小限の学習データでコンパクトなオープンソースモデルに強力な創発的身体能力をもたらすことを示唆している。

報酬はずっとデータの中にあった：識別器誘導型強化学習によるフローマッチングの修正
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

Jun 17

ByNicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

スコアマッチングモデルとフローマッチングモデルは、しばしば嗜好ベースの強化学習に依存している。その目的は二つある。一つは主観的な嗜好に合致させることであり、もう一つは——驚くべきことに——マッチングベースの訓練がデータそのものから学習することを意図している視覚的リアリズムや一貫性のある物体構造といった特性を回復することである。本稿では、この背景には構造的なミスマッチが存在すると主張する。マッチング損失は、訓練時の周辺分布のもとでの速度場やスコア場に対するℓ2回帰誤差を測定するものであり、推論時のサンプル品質を決定する視覚的・意味的特性との整合性が低い代理指標である。こうした特性と整合する報酬が与えられれば、RLはモデル自身のサンプルに対して評価を行い、報酬ランドスケープを直接追跡することで、このミスマッチを回避できる。課題は、人間の嗜好に依存することなく、そのような報酬を得ることである。人間の嗜好はコストが高いうえ、データのリアリズムとアノテータの傾向を混同してしまうからである。本稿では、**識別器誘導型強化学習**（Discriminator-Guided RL; DRL）を提案する。DRLは、事前学習済みの表現空間において、識別器をデータとベースモデルのサンプルを分離するよう訓練し、そのロジットをKL正則化付きRLにおける報酬として用いる。事前学習済み空間は識別器を知覚的に意味のある方向に制限し、ロジットはデータとモデル間の対数尤度比を推定する。この対数尤度比は、データ分布を目標とするための最適な報酬である。SiT、JiT、REPA、RAEの各モデルにおいて、DRLはガイダンスなしのFID（例：SiTでは9.38から2.62に低減）および意味空間におけるFD（例：SiTのDINOv3において88.2から19.3に低減）を改善し、すべてのバックボーンで一貫した向上を示す。また、人間の嗜好報酬を学習することなくこれを向上させる。さらに、その後の嗜好ベースのポスト訓練において、嗜好報酬と画像忠実度の間により優れたパレートフロンティアを実現し、過度な彩度や過剰な輝度といった低レベルのアーティファクトを低減しつつ、アライメントを向上させる。

EfficientRollout: システム認識型自己投機的デコードによる強化学習ロールアウト
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Jun 17

ByMinseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

強化学習（RL）は、LLMの代表的なポストトレーニングパラダイムとなり、強力な推論能力とエージェント的能力を実現しています。しかし、ロールアウト生成は依然としてレイテンシの主要なボトルネックとなっています。なぜなら、自己回帰的サンプリングは応答を逐次的にデコードし、少数の長尾生成が完了時間を決定づけることが多いからです。投機的解読（SD）は、このボトルネックに対処する自然な方法を提供します。なぜなら、これは固定LLMを提供するための確立された技術であり、トークンを迅速にドラフトし、並列検証を通じてそれらを受け入れることでレイテンシを削減しつつ、ターゲットモデルの分布を維持するからです。しかし、その実用的な高速化はRLロールアウトに直接には引き継がれません。（i）進化するターゲットポリシーにより、固定されたドラフターはポリシーの出力分布とのミスマッチが次第に大きくなります。（ii）ロールアウトデコード全体でアクティブバッチサイズが縮小し、デコードが計算主体からメモリ主体の領域へと移行します。後者では、並列検証が未活用の計算能力を活用できる可能性があります。したがって、RLロールアウトを加速するには、進化するポリシーによる長く高温の生成下でも効果を維持できるドラフターと、計算主体の領域を回避するシステム認識型のSD活用の両方が必要です。本稿では、このギャップに対処するために設計されたシステム認識型自己SDフレームワークであるEfficientRolloutを提案します。EfficientRolloutは、ターゲットモデルから量子化ドラフターを誘導し（すなわち自己投機的解読）、別途ドラフターの事前学習やオンライン適応を行うことなく、進化するポリシーと連動させます。さらに、受入認識型ドラフト長適応と組み合わせたシステム認識型SDトグルポリシーを調整し、ドラフト予算を進化するドラフター品質に合わせつつ、有益な領域でのみ投機を可能にします。EfficientRolloutは、高速化されたARロールアウトベースラインと比較して、ロールアウトレイテンシを最大19.6%、エンドツーエンドレイテンシを最大12.7%削減し、最終的なモデル品質を維持します。

SAE介入は信頼性に欠ける：介入後の抑制行動の回復
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Jun 16

ByMingyue Cui, Linghui Shen, Xingyi Yang

スパースオートエンコーダ（SAE）は、残差ストリームの活性化を解釈可能な特徴に分解する。最近の潜在空間防御は、これらの分解にますます依存しており、特定された「安全でない」SAE特徴が監視と介入のための実用的なハンドルとして機能するという前提に基づいている。このパラダイムでは、特定の有害な特徴をクランプすることで、モデルの不適切な動作を確実に防止できると期待されている。しかし、この成功が回復可能な障害モードを隠している可能性があることを示す。すなわち、クランプは行動への一つの可視経路を遮断するが、行動自体を排除するわけではない。この脆弱性を介入後回復として定式化する。これは制約付き残差空間最適化問題である。介入後の残差状態から出発し、対象のSAE特徴の介入後の値を維持しながら、介入前の行動を回復するように残差摂動を最適化する。最適化と生成全体を通じて介入がアクティブなままである強力な脅威モデルの下でも、回復は可能である。回復が単に介入を元に戻すものではないことを排除するために、単層介入にはエンコーダ直交更新を、層間設定には対応する特徴マップヤコビアンを使用する。TPP、アンラーニング、IOI、拒否ステアリングの各実験を通じて、このストレステストは、特徴レベルの介入が成功したにもかかわらず、回復可能な行動を明らかにする。特に安全上重要な拒否ステアリング設定では、防御された特徴の相対ドリフトを0.131に抑えつつ、有効サンプルに対して95.8%の回復率を達成しており、これはサフィックスベースのベースラインを大幅に下回る。回復経路帰属分析により、この回復はさらにSAE再構成残差、すなわちSAEによって説明されない成分に局所化される。これらの結果は、特徴レベルの制御と行動の完全性との間のギャップを明らかにする。SAE特徴は因果的介入をサポートできるが、それらを制御しても基礎となる行動を制御することは保証されない。

訓練生から指導者へ：マルチエージェント推論を用いた強化学習のためのLLM設計訓練環境
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Jun 16

ByChao Chen, Chengzu Li, Zhiwei Li, Yinhong Liu, Zhijiang Guo

大規模言語モデル（LLM）の学習における強化学習パイプラインでは、各段階間で手動による環境の再設計に依存することが多く、実践者は現在の方策を最も改善できる構成をヒューリスティックに推測する必要がある。このプロセスを自動化するために、我々は「LLM-as-Environment-Engineer」フレームワークを提案する。これは、現在の方策モデルが失敗軌跡とコンテキスト情報を分析し、次段階の学習環境構成に対する修正案を出力するものである。また、MAPF-FrozenLakeも導入する。これは制御可能なテストベッドであり、その生成器が多次元の環境構成を公開するため、環境再設計の研究とベンチマークに適している。このテストベッド上で、我々は環境エンジニアに対し、方策の動作、失敗事例、環境統計に関する構造化されたサマリを条件として与え、そこから次段階の学習構成を生成させる。Qwen3-4Bをバックボーンとすることで、本フレームワークはベンチマークにおいて最も高い総合成績を達成し、より大規模なプロプライエタリLLM（例：GPT、Gemini）や固定環境での学習ベースラインを上回った。さらに、どの形式のコンテキストが最も効果的かを分析した結果、環境の更新の成功には失敗の証拠が有効であり、既に機能している構成は維持されることがわかった。興味深いことに、学習中のRLチェックポイントは元のベースモデルよりも優れた環境エンジニアとして機能しており、方策学習がモデルの自身の残存する弱点を診断する能力を向上させることを示唆している。

空間視覚言語モデルにおける二経路推論の強化
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Jun 16

ByYatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu

空間VLMは幾何学的知覚において大きな進歩を遂げてきたが、奥行き、距離、シーン間の関係にわたる多段階推論を必要とする複雑な空間推論は依然として困難である。さらに、異なる空間クエリには根本的に異なる戦略が求められる。すなわち、純粋に言語的で段階的な演繹が最適なものもあれば、定量的推論の前に明示的な3D接地を必要とするものもある。本稿では、空間VLMに2つの相補的な推論経路、すなわち言語のみによる段階的演繹を行うLOR（Language-Only Reasoning）と、領域トークンによる3D幾何学的手がかり（中心点やバウンディングボックスなど）を検出した後に明示的な幾何学推論を行うDTR（Detect-Then-Reason）を備えた、強化学習に基づく空間VLMのための二経路空間推論フレームワークSR-REAL（Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs）を提案する。SR-REALは、まずコールドスタートの教師ありファインチューニング段階でLORとDTRの連鎖思考（chain-of-thought）の教師信号を構築し、領域から3Dへのインタフェースを導入する。その後、強化学習により精度報酬とフォーマット報酬を用いて方策モデルを最適化する。DTRについては、離散的な中心点検出報酬を追加し、幾何学的な位置合わせをさらに精緻化する。多様な空間ベンチマークにおいて、SR-REALは空間VLMベースラインを大幅に上回る。(i) 単一の強化学習モデルが両方の推論経路をサポートし、DTRは領域認識タスクにおいて正確な3D位置推定により優れた性能を発揮し、LORは一般的な空間推論を強化する。(ii) 両方の経路を同時に学習することで相互強化が促進される。(iii) 質の高いブレンドされたコールドスタートデータが安定した強化学習最適化に不可欠である。(iv) 本モデルはタスクごとのチューニングを必要とせずにデータセットやドメインをまたいで汎化し、LORとDTRの間で正の転移を示す。

正しい教師を信頼せよ：GUIグラウンディングのための品質認識自己蒸留
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

Jun 16

ByJingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu

グラフィカルユーザインタフェース（GUI）グラウンディングでは、視覚言語モデル（VLM）が高解像度スクリーンショット内の小さなターゲット要素を特定し、正確な画面座標を予測する必要がある。オン方策自己蒸留（OPSD）は、ハードな座標ラベルを超えた密なトークンレベルの教師信号を提供するため、この座標に敏感なタスクに対する有望なポストトレーニング手法である。しかし、ナイーブなOPSDはGUIグラウンディングにはあまり適していない。OPSDは生徒が生成したプレフィックスに対して教師を評価するため、プレフィックスがすでにターゲット座標から逸脱している場合、座標トークンの教師信号の品質が低下し、信頼性の低い教師信号につながる可能性がある。この問題を軽減するために、我々はVLMベースのGUIグラウンディングのための品質認識自己蒸留を提案する。これは、ソフトな正確性認識ゲーティングと教師確率スケーリングを通じて、座標トークンの教師信号品質を向上させる。ソフトな正確性認識ゲートは、教師の現在の座標トークン予測が、生徒が生成したプレフィックスの下で、まだ正解ボックスに完成できるかどうかをチェックする。もしできない場合、対応する教師信号の重みを下げる。その後、教師確率スケーリングは、教師の信頼度を軽量な要素として使用し、ゲート付き監視の強度をさらに調整する。重要な実証的発見として、どちらかのコンポーネントだけでは全体的な性能は向上しないが、それらを組み合わせると一貫して性能が向上する。これは、この2つのメカニズムが相補的な役割を果たしていることを示唆している。正確性認識ゲーティングは信頼性の低い座標トークン監視を抑制し、教師確率スケーリングは残りの信号の強度を調整する。6つのGUIグラウンディングベンチマークにおける実験では、我々の手法がベースモデルを一貫して改善し、強力なベースラインを凌駕することが示された。

オムニモーダル理解のための推論としてのネイティブ能動的知覚
Native Active Perception as Reasoning for Omni-Modal Understanding

Jun 17

ByZhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

長編動画理解のための受動的モデルは、通常「全てを見る」パラダイムに依存し、クエリの難易度にかかわらずフレームを一様に処理するため、計算コストが動画の長さに比例して増大する。インタラクティブフレームワークが登場しているものの、多くの場合、グローバルな事前スキャンに依存しており、そのコンテキストコストは依然として動画の長さに応じて拡大する。我々は、動画理解をPOMDPに基づく反復的な観察・思考・行動サイクルとして定式化する、初のネイティブ全モーダルエージェントであるOmniAgentを提案する。OmniAgentは、オンデマンドな行動を実行して音声・視覚的手がかりを選択的にテキストベースの永続的メモリに抽出し、推論の複雑性を動画の生の長さから効果的に切り離す。これを実現するために、(1) ネイティブな能動的知覚をブートストラップするためのエージェンティック教師ありファインチューニング（Best-of-N軌道合成と二段階品質制御を用いる）、および(2) TAURA（Turn-aware Adaptive Uncertainty Rescaled Advantage）を用いたエージェンティック強化学習を導入する。TAURAは、ターンレベルのエントロピーを活用して、重要な発見ターンへのクレジット割り当てを導く。重要な点として、OmniAgentは正のテスト時スケーリングを示し、推論ターン数が増加するにつれて性能が向上するため、能動的知覚の有効性が確認される。10個のベンチマーク（例：VideoMME、LVBench）での実験結果は、OmniAgentがオープンソースモデルの中で最先端の性能を達成することを示している。特筆すべきは、LVBenchにおいて、我々の7Bエージェントが10倍大きいQwen2.5-VL-72B（50.5％対47.3％）を上回った点である。

STARE: 驚き度に基づくトークンレベルのアドバンテージ再重み付けによる方策エントロピー安定化
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Jun 17

ByHaipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

GRPOのような検証可能な報酬を用いた強化学習（Reinforcement Learning with Verifiable Rewards）アルゴリズムは、LLMにおける複雑な推論のための主要なポストトレーニングパラダイムとして登場したが、トレーニング中にポリシーのエントロピー崩壊（policy entropy collapse）に悩まされることが一般的である。我々はGRPOにおけるトークンレベルのエントロピー動態の一次勾配分析を行い、トークンレベルのクレジット割り当てのミスマッチを特定する。すなわち、トークンごとのエントロピー変動は、軌跡レベルのアドバンテージと次のトークン分布に対するエントロピー感度関数の積に分解され、アドバンテージとサプライザル（驚き度）による4象限構造と準臨界性（near-criticality）の性質をもたらす。これに動機づけられ、我々はSTARE（Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability、サプライザル誘導型トークンレベルアドバンテージ再重み付けによるポリシーエントロピー安定化）を提案する。これは、バッチ内部のサプライザル分位数を用いてエントロピー臨界トークンサブセットを特定し、選択的にそれらの実効アドバンテージを再重み付けし、さらに目標エントロピー閉ループゲートを組み込むことで安定したエントロピー調整を実現する。1.5Bから32Bまでのモデル規模と、3つのタスクファミリー（Short CoT、Long CoT、Multi-Turn Tool Use）において、STAREは数千ステップにわたって安定したRLトレーニングを維持し、ポリシーのエントロピーを目標範囲内に保つ。AIME24およびAIME25において、STAREは平均精度でDAPOや他の競合ベースラインを4%～8%上回り、リフレクショントークンと応答長が連動して増加する。これは持続的な探索と活用のバランスを示しており、RLトレーニングの可能性をさらに引き出す。コードは https://github.com/hp-luo/STARE で公開されている。

Sumi: スクラッチから構築したオープンユニフォーム拡散言語モデル
Sumi: Open Uniform Diffusion Language Model from Scratch

Jun 17

ByMengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

拡散モデルは、自己回帰モデルに代わる有望な手法として台頭してきている。中でも一様拡散言語モデル(UDLM)は、任意のトークンを任意のステップで更新できるため、原理的により柔軟な生成を可能にする。しかしながら、大規模なパラメータ数と大規模なトークン予算の両方において、スクラッチから事前学習されたUDLMはこれまで存在しなかった。自己回帰モデリングとマスク拡散モデリングには、コミュニティが研究・発展の基盤とできる高性能モデルが既にスケールして存在している一方、一様拡散にはそれが無い。スクラッチから大規模に事前学習されたUDLMは、スケーリング挙動、生成ダイナミクス、制御可能性、そして既存の自己回帰モデルやマスク拡散モデルとのトレードオフを研究するためのクリーンな参照点となる。この目的のため、我々はSumi（日本語で「墨」）を発表する。これは完全に公開された7Bパラメータの一様拡散言語モデルであり、1.5Tトークンを用いてスクラッチから事前学習された。Sumiは、知識・推論・コーディングの各ベンチマークにおいて、同程度のトークン予算で学習された自己回帰モデルと競争力のある性能を示す一方、常識推論ベンチマークでは劣る結果となった。この背景には、教育データを重視したデータ混合比率が寄与していると考えられる。我々はモデルの重み、チェックポイント、そして公開コーパス上のデータ混合比率の完全な仕様を含む学習レシピのすべてを公開する。この公開が、本来の意味での一様拡散を大規模に研究するコミュニティの取り組みを促進し、未だ十分に理解されていないその諸側面への研究を触媒することを期待する。

MaineCoon：リアルタイム音声・視覚社会世界モデルの追求
MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Jun 16

ByLichen Bai, Tianhao Zhang, Shitong Shao, Dingwei Tan, Qiyu Zhong, Zhengpeng Xie, Haopeng Li, Qinghao Huang, Dandan Shen, Tengjiao Ji, Wei Wang, Peicheng Wu, Yuxuan Zhao, Xiangyu Zhu, Welly Luo, Shurui Yang, Zeke Xie

世界的な動画コンテンツの大部分が、インタラクティブなソーシャル目的でソーシャルプラットフォーム上で消費されるようになるにつれて、ソーシャルワールド向けに構築された動画生成モデルは重要であるが、これまでの研究ではほとんど見過ごされてきた。本研究では、ソーシャルワールドモデルの位置づけを定義し、その目標への第一歩としてプロトタイプモデルを構築する。これまでのワールドモデルは物理環境やゲームワールドの探索をうまくシミュレートするものの、人間中心の社会的ダイナミクスからは根本的に切り離されたままである。このギャップを埋めるために、ソーシャルワールドモデルへの第一歩として、22Bのパラメータを持ち、リアルタイムのストリーミング生成とサブ秒のインタラクションを可能にし、単一GPU上で最大47.5 FPSという記録的なフレームレートを達成する、初のリアルタイム音声-ビジュアル自己回帰モデルであるMaineCoonを提案する。我々の知る限り、MaineCoonはソーシャルインタラクティブアプリケーション向けに最適化された初のリアルタイム音声-ビジュアル生成モデルでもある。効率的で安定したトレーニングを可能にするために、セルフリサンプリング、クロスモーダル表現アライメント、ドメイン認識型選好最適化、および強化型オンラインポリシー蒸留（ROPD）など、いくつかの新しい手法をMaineCoonに導入する。また、エージェント型キャッシュ管理とプロンプト計画によってドリフトを軽減しながら、千秒規模以上の生成をサポートする初のエージェント型ストリーミング推論フレームワークを設計する。これらの革新により、トレーニングを大幅に加速すると同時に、リアルタイム推論性能を最適化する。我々は、この研究が高品質、低レイテンシ、長期の音声-ビジュアル自己回帰モデルにおいて新たな最先端（SOTA）性能ベンチマークを確立するだけでなく、次世代のAIネイティブソーシャルプラットフォームに望まれるパラダイムシフトを示していると確信する。

アラインメントを超えて：多文化エージェントシステムにおける集合的性質としての価値多様性
Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

Jun 4

ByShaoyang Xu, Jingshen Zhang, Long P. Hoang, Jinyuan Li, Wenxuan Zhang

多文化マルチエージェントシステムは、異なる文化的背景を持つエージェントが共存する、世界的に多様な環境への導入が進んでいる。既存の文化評価は価値の整合性、すなわち単一のエージェントが目標とする文化にどれだけ適合しているかに焦点を当てている。しかし、整合性はエージェントごとの特性であり、システム全体として表現すべき文化の複数性が維持されているかを明らかにすることはできない。本稿では、共有の価値観調査における文化的に条件づけられたエージェントの応答間の非類似性によって定義される、多文化エージェントシステムのシステムレベルの評価軸として「価値の多様性」を提案する。世界価値観調査を用いて、多様なシステム構成のもとで19の文化と18のバックボーンモデルを評価した。その結果、多様性は整合性とほぼ無相関であり、両者が補完的なシステム特性を捉えていること、また、現在の多文化エージェントシステムは価値の多様性において人間社会を大幅に下回ることが明らかになった。バックボーンモデルを混在させたシステムはその差を縮めるが解消には至らず、その差は文化構成やエージェント規模を変えても持続する。さらに、社会的相互作用はエージェントを合意へと導くことで多様性を損ない、参加型予算編成のケーススタディでは、この均質化が集団的意思決定の幅を狭めることを示した。以上の結果は、価値の多様性を多文化マルチエージェントシステムの独立した評価軸として確立するとともに、現在のLLMベースの社会における持続的な均質化傾向を明らかにする。コードとデータはhttps://github.com/iNLP-Lab/MultiAgent-Diversityで公開している。

CEO-Bench: エージェントは長期戦略を遂行できるか？
CEO-Bench: Can Agents Play the Long Game?

Jun 16

ByHaozhe Chen, Karthik Narasimhan, Zhuang Liu

言語モデルエージェントは、ソフトウェア工学やカスタマーサービスといった、孤立した短期タスクにおいて熟練した実行者となりつつある。しかし現実世界の課題には、エージェントにおいてはほとんど検証されていない高度なスキルの組み合わせが必要となる。(1)不確実性の中で長期的な展望を見据えること、(2)ノイズの多い環境で情報を取得すること、(3)変化する世界に適応すること、(4)複数の可動要素を整合的な目標に向けて調整すること、である。本稿では、これらすべての能力を評価するベンチマークCEO-Benchを提案する。これは現実世界の代表的なタスク、すなわち500日間にわたって新興企業を運営することをシミュレーションする。エージェントはプログラム可能なPythonインターフェースを通じて、架空企業の価格設定、マーケティング、予算編成など多岐にわたる側面を管理し、人間のCEOと同じ環境で同じ課題に直面する。成功には、ノイズを含み相互に関連するビジネスデータベースを分析し、シグナルを的確な戦略に変換し、プログラミングによって多くの意思決定を調整することが求められる。最も強力なエージェントは、将来のキャッシュを予測するために顧客コホートをシミュレーションしたり、交渉履歴を解析して隠れた顧客の嗜好を明らかにする洗練されたコードを記述する。それでもなお、最先端のモデルのほとんどはこの環境で苦戦する。Claude Opus 4.8とGPT-5.5のみが開始残高100万ドルを超える結果を残したが、いずれも一貫して利益を上げるには至っていない。CEO-Benchは、持続的かつ適応的な長期的進歩を推進するために必要な知能を測定するための、第一歩となる。

ViT-Up: ビジョントランスフォーマーのための忠実な特徴アップサンプリング
ViT-Up: Faithful Feature Upsampling for Vision Transformers

Jun 12

ByKrispin Wandel, Jingchuan Wang, Hesheng Wang

ビジョントランスフォーマー（ViT）は視覚表現学習において支配的なアーキテクチャとなり、非常に強力で広く再利用可能なバックボーンフィーチャーを提供しています。しかしながら、ViTはグローバル自己注意の二次コストのため、比較的小さなパッチトークングリッドで動作することが一般的であり、セマンティックセグメンテーションや深度推定などの高密度予測タスクにおいて持続的なボトルネックとなっています。このことが、タスク非依存の特徴アップサンプラの開発を動機づけています。最近の最先端手法は視覚的にシャープな高密度表現を生成しますが、ガイド付きアップサンプリングのための浅い画像エンコーダへの依存が、特徴漏洩、断片化、ぼやけを引き起こす可能性があります。我々は、外部画像ガイダンスを中間ViT隠れ状態からの層ごとのクエリ構築に置き換える暗黙的特徴アップサンプリングフレームワーク、ViT-Upを導入します。これにより、バックボーンフィーチャー空間との整合性を維持しながら、任意の連続画像座標での特徴予測が可能になります。実験により、ViT-Upが高密度予測およびセマンティック対応において、最先端の画像ガイド付きアップサンプラを一貫して上回ることが示されています。DINOv3-S+において、ViT-UpはCityscapesで+2.07 mIoU、SPair-71kで+4.17 PCK@0.10の改善を達成しています。より大きなDINOv3-Bバックボーンでは、これらの改善は+3.36 mIoUおよび+8.09 PCK@0.10に増加し、ViT-Upがバックボーン容量に応じて好ましいスケーリング特性を示すことが実証されています。

PAIWorld: 3D一貫性のあるロボット操作のための世界基盤モデル
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

Jun 16

ByYuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu

ワールド基盤モデル（WFM）は強力なシミュレータであるが、その大半は単一視点設定で動作し、ロボット操作に必要なマルチビュー3D一貫性を欠いている。ロボットシステムはポリシー学習に複数のカメラ（自己中心視点、対手視点、手首装着型など）を活用するが、現在のマルチビューワールドモデルは明示的な幾何学的推論を行わずにビュートークンを単純に結合している。このため、視点間での物体のずれ、深度の不整合、テクスチャの不一致が生じる。我々はこれらの失敗が、視点間の明示的な通信機構の欠如と3D幾何学的事前知識の欠如という2つの欠陥に起因することを突き止めた。両方を同時に解決することが必要かつ十分であると我々は主張する。この問題に対処するため、我々はPAIWorldを提案する。これは拡散トランスフォーマーを基盤とするワールドモデルを、以下の3つの中核的構成要素で拡張するフレームワークである。(1) 視点間の明示的な経路を確立する幾何認識型クロスビューアテンションブロック、(2) カメラのレイ方向と外部パラメータ（姿勢）をアテンション機構に符号化する幾何学的ロータリー位置エンコーディング、(3) 凍結された3D基盤モデルから3D認識特徴を蒸留して3D一貫性を確保する潜在3D-REPA。DiTベースのワールド基盤モデル上に構築されたPAIWorldは、ロボット操作ベンチマークにおいて最先端のマルチビュー3D一貫性を達成し、WorldArenaリーダーボードで第1位、AgiBot-Challenge2026リーダーボードで第2位を獲得した。さらに、モデルベース計画、ワールド行動モデル、マルチビューポリシー後学習といった下流アプリケーションを可能にする。

SciOrch: 専門家LLMを調整して最先端のマルチモーダル科学推論タスクを解決する学習
SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

Jun 14

ByJingru Guo, Xiangyuan Xue, Lian Zhang, Wanghan Xu, Siki Chen, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

フロンティア科学的推論は、大規模言語モデル（LLM）にとって依然として大きな課題であり、最も強力な商用システムでさえ専門家レベルの性能には及ばない。モデルの振る舞いを詳細に観察すると、単一モデルの評価では隠れていた顕著な相補性が明らかになる。すなわち、異なるフロンティアモデルは異なる種類の問題に優れており、単一のモデルでは全体像を捉えられない。本稿では、SciOrchを提案する。これは、軽量な8Bモデルを訓練し、科学的推論のためにフロンティアLLMをオーケストレーションするフレームワークである。オーケストレータは各質問を分解し、API呼び出しを通じて選択した商用モデルにサブ問題を委譲し、最終回答を統合する。このようなオーケストレータの訓練は、従来のエージェント型強化学習よりも根本的に難しい。各アクションがAPI呼び出しを引き起こし、コストとレイテンシの両面で高額になるため、標準的なオンラインロールアウトは実行不可能だからである。これに対し、我々はMCTSベースの手法を採用し、多様なオーケストレーション軌跡を生成し、各ノードから単一ターンのサンプルを抽出し、GRPOスタイルの訓練でオーケストレータを最適化する。SGI-ReasoningとScientists' First Examにわたる240問のテストセットにおいて、SciOrchは平均精度56.66%を達成し、最も強力な単一商用モデルを3.74%、最も強力なマルチエージェントベースラインを3.33%上回った。また、SGIとSFEの両方で最高精度を達成し、典型的なマルチエージェント手法の半分以下のAPIコストでこれを実現した。

RODS: マルチターンツール使用エージェントのための報酬駆動型オンラインデータ合成
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

Jun 17

ByRuishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

マルチターンのツール使用強化学習では、静的データセットにおける有益なサンプルの急速な枯渇がボトルネックとなっている。我々は、GRPOにおける勾配信号が最もロールアウト報酬の分散の高いタスクに集中することを観測する。これは、Popoviciuの上限の結果である。その結果、エージェントの能力境界付近（成功と失敗がほぼ均衡する領域）のサンプルが、不均衡に大きな方策勾配に寄与する。訓練が進むにつれてこの境界は継続的に移動し、静的なデータセット内の有益なサンプルのプールを徐々に枯渇させる。我々はこの枯渇を解決するために、RODS（Reward-driven Online Data Synthesis：報酬駆動型オンラインデータ合成）を提案する。RODSは、訓練用に既に計算されたロールアウト以外に追加の推論を必要としない、実用的でコストゼロの境界検出器として進捗報酬の分散を再利用することで、RL訓練とデータ生成のループを閉じる。同手法は、そのような境界サンプルを継続的に特定し、スキル調整型リサンプリングパイプラインを介して、その構造的複雑さ（例：APIトポロジーや依存関係の深さ）に合致する新しいマルチターンバリエーションを合成し、方策と共進化する動的リプレイバッファを管理する。400個の人間によるシードから開始し、約800サンプルのアクティブな訓練プールを維持することで、RODSは1万7千サンプルのオフラインパイプラインと同等の性能を達成しつつ、約20分の1の軌跡数で済み、我々の制御された設定において固定データRLや環境拡張よりも優れている。

軌跡レベルの監督はいつ効率的なオフライン強化学習を可能にするのか？
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

Jun 16

ByXuanfei Ren, Tengyang Xie

オフライン強化学習は通常、プロセスレベルの報酬の監督の下で分析されるが、多くの逐次的意思決定データセットは軌跡レベルの結果のみを記録する。我々はこのような結果レベルの監督からのオフラインポリシー最適化のための統計理論を開発する。まず、目標が依然として期待累積報酬である標準的な設定を研究する。しかし、各オフライン軌跡は、条件付き平均が累積リターンであるスカラーラベルのみを提供する。我々は、潜在報酬モデルを学習し、軌跡レベルのラベルからポリシーを最適化する悲観的アクタークリティックアルゴリズムOPACを提案する。我々は、オーダー ~O(H^2 C_{sa(π^star)}/n)の高確率保証と一致する下界を証明し、プロセスレベルの報酬を1つの軌跡レベルのラベルに置き換えることの鋭い統計的コストを特徴づける。次に、我々はこの原理を嗜好ベースのフィードバックに拡張し、主要なホライゾンと集中可能性の依存関係を嗜好モデルの定数まで保持する。最後に、我々は一般化された結果ベースのオフライン強化学習を研究する。ここでは、監督と目的の両方が、潜在的な各ステップの報酬の非線形集約によって誘導される軌跡レベルの量である。この問題は一般に学習不可能である：全成功目的の場合、決定論的遷移と一定の集中可能性であっても、任意のオフライン学習者はΩ(2^H)個の軌跡を必要とする可能性がある。次に、我々は2つの構造係数κ_μ(σ)とχ_μ(σ)を通じて扱いやすい領域を特定する。これらは結果集約と一般化ベルマン更新における情報損失を捉え、その下で一般化OPACが多項式サンプル複雑性を達成する。まとめると、我々の結果は、結果レベルの監督がサンプル効率的なオフライン制御を可能にする場合と、プロセスレベルの報酬の欠如が根本的な統計的障壁を生み出す場合を明らかにする。

チューリング報酬によるユーザーシミュレーターの学習
Learning User Simulators with Turing Rewards

Jun 17

ByYingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

対話的な環境で人間のユーザーをシミュレートする学習は、エージェントアシスタントの訓練、パーソナライゼーションシステムの評価、社会科学の研究などにおいて進展をもたらす可能性がある。既存のアプローチでは通常、大規模言語モデル（LLM）を訓練し、対数確率の最大化や類似性報酬を用いて単一の正解応答に一致させることでこれを実現している。これに対し我々は、{Turing-RL}を提案する。これはチューリングテストに基づく強化学習手法であり、ユーザーシミュレータモデルを訓練するためのものである。{Turing-RL}は、識別的チューリング報酬をLLM判定器と共に用いて、ユーザーの履歴を考慮した上で、生成された応答が実際のユーザーの発言とどれだけ区別不能かを評価し、ユーザーシミュレータLLMは、そのような報酬を用いてユーザーが実際に発言し得るものと区別不能な応答を生成することを学習する。会話チャットとRedditフォーラムでの議論という2つの異なるドメインにおいて、{Turing-RL}がLLM評価および人間評価の両方の指標でベースライン手法を一貫して上回ることを確認した。本研究は、応答の一致を目指すよりも、区別不能性を最適化することがユーザーシミュレータの学習に有効であることを示唆している。

Physics-IQ確認済み
Physics-IQ Verified

Jun 17

ByTim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

ビデオ生成モデル（VGM）は、動画生成だけでなく、世界モデリングを含む多様なダウンストリームタスクにも利用できる新たなフロンティアとなっています。これらのタスクを発展させるためには、優れたビデオモデルが世界の物理的現実を理解していなければなりません。この理解を評価することは新たな分野であり、モデルが生成した動画と物理実験の実世界動画を比較することで、それを明示的に定量化するPhysics-IQベンチマークが開発されました。本研究では、Physics-IQベンチマークの体系的な検証を行い、その欠点を明らかにし、VGMの物理的理解をより正確に測定するための3つの解決策を提案します。具体的には、プロンプトと正解データの品質を向上させて交絡因子の影響を低減し、さらに各サンプルと各指標を均等に重み付けするサンプルレベルのスコアリングシステムを導入します。その結果得られたベンチマーク「Physics-IQ Verified」は、全サンプルの57.6％を改良し、34.8％以上のプロンプトを改善しました。6つの画像-to-動画生成モデルを用いた比較研究では、中程度ながら有意義なランキングの変化（Kendallのτ = 0.46）が観察されました。Physics-IQ Verifiedが、物理的に正確なVGMに向けたより信頼性の高いシグナルを提供し、コミュニティの発展に貢献することを期待しています。ベンチマークのコードは https://github.com/google-deepmind/physics-iq-benchmark から入手できます。

研究ハーネスによるAI科学者における研究合成と検証の外部化
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Jun 17

ByZijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen

AIシステムは科学ワークフローをますます自動化できるようになっているが、先行証拠、生成されたアイデア、実験、最終的な主張を結びつける推論は、多くの場合、モデル推論の中に暗黙のまま残されている。本稿では、研究統合と実験的検証を検査可能で契約に基づくプロセスとして外部化する研究ハーネス、Xcientistを紹介する。Xcientistは、文献証拠、アイデアの状態、実装計画、アブレーション記録、修復痕跡を永続的な研究アーティファクトとして整理する。これにより、生成されたメカニズムは、その証拠基盤を失うことなく、根拠づけ、実行、テスト、修正が可能となる。我々は、自動研究の故障モードとして主張ドリフトを特定する。これは、実行可能なアーティファクトがもはや当初主張されたメカニズムを支持しない状態である。学習不要のメモリシステム、グラフ構造交通予測、マルチスケール物理情報ニューラルネットワークの各分野において、Xcientistは問題定式化からメカニズム設計、検証、制限付き修正に至るまでのトレーサブルな軌跡を保持する。これらの結果は、AI科学者は最終的なアーティファクトだけでなく、その統合・検証プロセスが帰属可能、検査可能、そして科学的に説明責任を果たせるものであるかどうかによって評価されるべきであることを示唆している。

REVES: 修正と検証—テスト時スケーリングのための拡張訓練
REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Jun 17

ByYuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

逐次修正によるテスト時スケーリングは、大規模言語モデル（LLM）の推論能力を向上させる強力なパラダイムとして登場した。しかし、標準的なポストトレーニング手法は主に単発の目的を最適化しており、多段階推論のダイナミクスとの根本的な不整合を生み出している。最近の研究ではこれをマルチターン強化学習（RL）として扱っているが、従来の手法は多段階の軌跡を直接最適化し、モデルが修正から学習できる中間ステップの高品質な誤りをさらに活用できていない。我々は、オンラインデータ・プロンプト拡張と方策最適化を交互に行う2段階の反復フレームワークを提案する。成功した回復軌跡の中間ステップ（「ニアミス」回答）を分離された修正プロンプトと検証プロンプトに変換することで、本アプローチは効果的な回答変換と誤り識別の両方にトレーニングを集中させる。このアプローチにより、効率的なオフポリシーデータ生成が可能となり、標準的なマルチターンRLと比較して長期的サンプリングの計算オーバーヘッドを削減する。LiveCodeBenchにおいて、公開テストケースをフィードバックとして用いた結果、RLベースラインに対して+6.5ポイント、標準的なマルチターン訓練に対して+4.0ポイントの向上を観測した。コーディング以外でも、本アプローチは円充填問題において従来報告されたSOTA結果に匹敵する一方、最小のベースモデル（4B）を使用し、はるかに大規模な進化的探索システムよりもはるかに少ないロールアウトで実現した。正解検証による数学の結果は、修正能力の向上をさらに確認する。また、n_queensやmini_sudokuなどの分布外の制約充足パズルにも一般化し、ここでは正しさは問題の制約によって完全に定義される。コードはhttps://github.com/yxliu02/REVES.gitで入手可能である。

MyPCBench: 個人向け知的コンピュータ操作エージェントのためのベンチマーク
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Jun 15

ByLawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

現在のコンピュータ操作エージェント向けベンチマークは、非個人環境でモデルを評価している。これにより、評価と実運用の間にギャップが生じている。パーソナルアシスタントは、ユーザのコンテキスト、履歴データ、ログイン済みアカウントを含むデジタルライフ全体にわたって動作することが期待されているにもかかわらずである。このギャップはWebタスクで最も顕著である。実Web評価では、実際のパーソナルアシスタントが操作しなければならない、ログインや個人情報を必要とするサイトを実行できないからである。我々はMyPCBenchを導入する。これは、17個の模擬実世界Webアプリケーションとフルデスクトップスタックを備えたLinuxデスクトップ上で、コンピュータ操作エージェントをパーソナルアシスタントとしてテストするものである。すべての環境は、『The Office』のマイケル・スコットという一人の標準的ペルソナ向けにシードされている。この環境において、OpenClawコミュニティから集めた実際のリクエストに着想を得た184のタスクを定義し、コンピュータ操作とbashコマンドの統一ツールインターフェースを用いて、6つのクローズドウェイトおよびオープンウェイトモデルをベンチマークする。最良のモデルであるClaude Opus 4.6はタスクの55.4%を完全に解決し、50%を超えた唯一のモデルとなった。モデルの失敗は、多くのアプリケーションにまたがるタスクや、個人化がアシスタントに最も負荷をかける長い軌跡に集中している。我々は環境、タスクセット、およびエージェントハーネスを https://mypcbench.com で公開する。

iOSWorld: 個人用インテリジェントフォンエージェントのためのベンチマーク
iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Jun 8

ByLawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

有用なフォンエージェントには、個人に合わせた知性が求められます。デバイス上に存在するユーザーの識別情報、履歴、嗜好を考慮して推論できる必要があり、非個人向けのサンドボックス内で孤立した指示に従うだけでは不十分です。既存のモバイルエージェントベンチマークには、このようなパーソナライゼーションが欠けています。そこで本稿では、iOSWorldを紹介します。これは、新たに構築した26のiOSアプリにわたる永続的なユーザー識別情報を基盤とする、初のインタラクティブなネイティブiOSシミュレータベンチマークです。これらのアプリには、取引、メッセージ、旅行記録、社会的関係、金融活動など、相互に関連するデータが含まれています。iOSWorldは、難易度が徐々に上がる3つのカテゴリにわたる133のタスクで構成されています。単一アプリタスク（27）は1つのアプリをテストし、複数アプリタスク（60）は2～8のアプリにまたがり、記憶とパーソナライゼーションタスク（46）はエージェントに個人データからパターンを推論することを要求します。我々は、視覚情報のみの設定と、特権的な視覚情報＋XMLの設定の両方で、最先端およびオープンソースのコンピュータ操作モデルを評価しました。最良の構成では全体で52%の達成率ですが、複数アプリタスクでは37%にとどまります。特権的な視覚情報＋XMLへのアクセスは、最先端モデルの性能を最大26ポイント向上させる一方、小規模モデルはアクセシビリティツリー入力を追加しても恩恵を受けません。iOSWorldを、すべてのアプリ、シードデータ、タスク、ルーブリック、評価コードを含むオープンソースベンチマークとして公開します。

IndustryBench-MIPU: 工業製品の複数画像属性値抽出のベンチマーク
IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Jun 12

ByHaonan Qi, Jin Cao, Yongqi Zhang, Xintong Wang, Weidong Tang, Bin Chen, Chengfu Huo, Haojun Pan, Hengyu You, Jing Li, Yingde Wang, Liang Ding

バルブやサーキットブレーカなどの工業製品は、調達、互換性、安全性をサプライチェーン全体で規定する膨大な技術仕様によって定義されています。これらの仕様は、仕様表、銘板、技術図面など、複数の異種の製品画像に散在していますが、マルチモーダル大規模言語モデル（MLLM）がそれらを確実に復元できるかどうかは、まだ十分に調査されていません。このギャップを埋めるために、我々はIndustryBench-MIPUを提案します。これは、構造化属性抽出（製品画像からプロパティと値のペアを復元すること）を中心に構築された、マルチイメージの工業製品理解のための初の大規模ベンチマークです。このタスクは、仕様表と銘板に対するテキスト認識、技術図面に対する視覚的推論、工業用語を解読するためのドメイン知識、散在する仕様を統合するためのクロスイメージ証拠統合を同時に検証します。具体的には、このベンチマークは、マルチモデルコンセンサスと3層品質保証により構築され、18の産業カテゴリにわたる103,703のアノテーションを伴う27,652枚の画像にわたる4,559の製品で構成されます。単一画像設定と製品レベルのマルチ画像設定の両方で9つのMLLMを評価した結果、顕著な完全性のギャップが明らかになりました。モデルは高い精度（86～94%）を達成するものの、最良のモデルでも製品レベルの属性の49.9%しか復元できず、単一画像からマルチ画像抽出に移行すると再現率が15～34パーセントポイント低下します。単一画像の精度ではなく、マルチ画像の完全性が核となるボトルネックです。データセットとコードは公開されています。

Bag of Dims：次元レベルの符号パターンによるトレーニング不要の機構的解釈可能性
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Jun 17

ByVarun Reddy Nalagatla

トランスフォーマーの隠れ状態の標準基底が、訓練不要でアーキテクチャに依存しない特徴基底としてすでに機能していることを示す。個々の次元は、その符号（+1/-1）によって意味内容を、その大きさによって確信度を符号化し、独立した二値レジスタとして動作する。特徴とは、一貫した符号パターンを持つ次元の部分集合であり、学習された回転を伴わずに符号の一致数を数えることで読み取られる。この「Bag of Dims」フレームワークを、言語（Qwen 3.5-4B、Gemma 3-4B、Mistral 7B、Qwen3-32B）、視覚（DINOv2、ViT-Base）、音声（AST）にわたる7つのモデルで検証した。符号のみで予測内容を伝達できる。単位大きさの符号パターンは、LMヘッドを通してトップ5の次トークン精度の60～93%を維持し、デコーダ不要のハミングスコアリングはトップ4096で80～90%に達する。単一トークンのキャッシュ（トークンあたり1回の順伝搬、文脈なし、ラベルなし）から、符号一致により175カテゴリーをAUC 0.97～0.99で検出する。訓練されたプローブはAUCをわずか+0.018向上させるに過ぎず、軸に沿った重みに収束する。これらの特徴は因果的に作用する。K/Vアテンション射影を生き延び、それらを書き込むFFNニューロン連合に遡ることができ（ランダム重みの対照実験では決して再現されない）、生の順伝搬中に特徴の符号を反転させると、4つの言語モデルにおいて、大きさを一致させた概念特異的な方法でその概念が抑制される。次元は全体を通じて独立を保つ（ペアワイズ相互情報量は0.006ビット未満）。この構造は言語に固有ではない。同じ次元単位の符号が、自己教師あり視覚（DINOv2、ImageNetスーパークラス12中9）、教師あり視覚（ViT-Base、12中11）、音声（AST、ESC-50の50カテゴリーすべて）にも現れることから、これは言語モデリング目的ではなく、トランスフォーマー訓練一般を反映している。標準基底は、1回の順伝搬で特徴を読み取るのにすでに十分であり、最適化もGPU時間も不要である。未解決の問題は、適切な回転を見つけることから、各次元が何を符号化しているかをカタログ化することへと移る。

HiLo-Token: 入力適応型高低周波トークン圧縮による効率的な画像編集
HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

Jun 11

ByHaoran You, Yotam Nitzan, Lingzhi Zhang, Yifan Gong, Mang-Tik Chiu, Connelly Barnes, Yan Kang, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi

Photoshopの「Remove」や「Generative Fill」といったボタンを備えたクリエイティブな画像編集ツールは、日常的な顧客利用の中核をなしており、PhotoshopやLightroomにおけるトラフィックの大部分を占めています。しかし、現在の生成AIモデルは大きなレイテンシ問題に直面しており、特に畳み込みベースのU-Netから拡散トランスフォーマー（DiT）への移行に伴い、その問題はさらに顕著になっています。多様なマスク比率にわたる数百の代表的な画像編集サンプルを用いた評価では、DiTモジュールが50タイムステップから8タイムステップに蒸留された後でも、モデル全体のレイテンシの平均73%を占めることが判明しました。この課題に取り組むため、我々はHiLo-Tokenを提案します。これは、高周波でリッチなコンテキスト領域により多くのトークン予算を割り当て、低周波領域には少ないトークンを割り当てる、入力適応型のトークン圧縮フレームワークです。具体的には、ユーザーマスクで指定された編集領域に対しては、膨張マスク内のすべてのトークンを保持し、強い局所性とコンテキストの関連性を維持します。編集領域外では、空間周波数に基づくシンプルかつ効果的な高周波トークン選択戦略を導入して重要な局所的詳細を捉える一方、16倍ダウンサンプリングされた画像のトークンを用いて低周波成分を表現し、ぼやけた全体構造を保持します。プロダクションレベルの評価データを用いた広範な実験により、提案手法の有効性が検証されました。画像編集タスクにおいて、小、中、大のマスク比率カテゴリ（平均比率6.38%、15.92%、35.36%）に対して、A100-80GB上でそれぞれ3.13倍、2.59倍、1.67倍のDiT高速化を達成し、生成品質の低下は全く見られませんでした。

推論の前に見る：ショートカットに頑健なマルチモーダル・オン・ポリシー自己蒸留のための知覚と推論の分離
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Jun 17

BySihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

オン方策自己蒸留（OPSD）は、モデル自身のロールアウトで訓練し、参照ターゲットを条件とする密なトークンレベルのターゲットを凍結コピーが提供する手法である。これはLLMの推論には有効だが、マルチモーダル大規模言語モデル（MLLM）への直接的な拡張はショートカットを生みかねない。すなわち、特権的なターゲットが主にテキストの参照ターゲットに基づいてトークンを導き、画像を無視する可能性がある。本稿では、MLLMの事後訓練のための視覚的に基づいたOPSDフレームワーク、ViGOSを提案する。生徒モデルはまず視覚的な記述を書き、その後に最終解答に向けて推論を行う。有効なロールアウトでは、画像のみの知覚教師が記述を監督し、特権的な推論教師が同じ生徒のプレフィックス上の推論と最終解答を監督する。無効なロールアウトに対しては、出力形式を回復するために参照教師のみを使用する。一般的な視覚言語、専門家推論、視覚数学、空間的接地、および視覚言語事前知識のベンチマークにおいて、ViGOSはOPSDの主な利点を維持しつつ、ショートカットが生じやすい設定で画像に基づく振る舞いを改善する。

Morpheus: トルコ語のための形態素認識型ニューラルトークナイザーおよび単語埋め込み器
Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Jun 17

ByTolga Şakar

トルコ語は膠着的である。すなわち、意味は形態素によって担われる。しかし、現代の言語モデルを駆動するサブワードトークナイザはコーパス統計に基づいて単語を分割し、意味を担う接辞を断片化し、WordPieceやルールベースの解析器の場合には、その出力を元のテキストにデコードすることに失敗する。本論文では、トルコ語向けのニューラル形態素境界モデルMorpheusを提案する。これは、ロスレスで形態論を考慮したトークナイザであると同時に、単語埋め込み生成器でもある。微分可能なポアソン二項動的計画法により、トレーニング中は文字ごとの境界確率をソフトな形態素所属度に変換し、推論時には厳密なセグメントを得る。文字列の正規化は行わないため、decode(encode(w)) = w が設計上保証される。モデルがニューラルであるため、トークン化と同じ順伝播で構造化された単語埋め込みも出力される。可逆トークナイザ（生成に有効な唯一のトークナイザ）の中で、Morpheusは最も低い文字あたりビット数（1.425）を達成し、サブワードファミリーの正解形態素アライメントを約2倍に向上させ（MorphScore マクロF1 0.61 vs. 約0.32）、64K語彙のサブワードトークナイザと比較してGPUメモリを約19%削減する。埋め込みモデルとして、凍結されたMorpheusのベクトルは語彙検索（語根ファミリーのMAP 0.85）と同語根検証（ROC-AUC 1.00）でリードし、多言語検索モデルBGE-M3やBERTurkを上回る。一方、文脈や屈折に依存するタスク（NER、格/数プロービング）では、より重い文脈エンコーダが依然として優れている。このトレードオフは、Morpheusの語根中心の幾何構造に起因すると考えられる。コード: https://github.com/lonewolf-rd/TurkishMorpheus; モデル: https://huggingface.co/lonewolflab/Morpheus-TR-50K; インタラクティブデモ: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo。

LLMパーソナライゼーションにおける人間の再中心化
Re-Centering Humans in LLM Personalization

Jun 4

ByLechen Zhang, Jiarui Liu, Tal August

関心が高まっているにもかかわらず、大規模言語モデル（LLM）のパーソナライズ能力の評価のほとんどは、合成データに依存してきました。現在のパーソナライズシステムが実際のユーザにとってどの程度有効かは不明瞭です。本論文では、合成データと人間データを用いた場合のLLMパーソナライズ性能の乖離を研究します。パーソナライズの3段階、すなわち会話からのユーザ属性抽出（5,949件の判定）、新たなプロンプトへの関連属性の対応付け（11,919件）、関連属性を考慮したパーソナライズ応答の生成（1,101件）にわたって、人間との会話（550件の会話）と判断データを収集しました。人間データを取り入れることで、各段階におけるシステムの限界が明らかになりました。モデルは人間の会話から属性を抽出するのに苦戦し、関連属性に関する人間の判断と一致せず、汎用的な応答と比較して人間が評価しても優れていないと判断されるパーソナライズ応答を生成する（ただし、LLM自体の評価では広く優れているとされる）。最初の2段階では、自動パーソナライズ評価を人間データに近づける軽量なトレーニングベースの介入手法を2つ導入します。しかし、3段階目では、学習された報酬モデルが人間の評価とわずかな相関しか示さず、人間の価値観に合致したパーソナライズ品質の判断を直接モデル化することの難しさが示唆されます。収集したデータは、モデルがどのようにユーザ情報を抽出・選択・統合すれば人間にとって有用と感じられるかを研究するための基盤を提供します。

スプレッドシートにおける次のアクション予測を評価するためのベンチマークとフレームワーク
A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

Jun 11

ByTejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

予測コード補完は開発者の作業速度を大幅に向上させる。しかし、より一般的に利用されるスプレッドシートにおいては、このような自動補完機能は事実上存在しない。このギャップを埋めるため、我々はスプレッドシート内でのユーザー操作のシーケンスを観察し、将来の操作を予測するシステム向けのベンチマークを導入する。主な課題は2点ある。(1)公開スプレッドシートコーパスに編集履歴が存在しないこと、(2)スプレッドシート操作の複雑な空間（空間的、時間的、複合的）である。(1)に対処するため、パラメータ化されたヒューリスティックとLLMによる洗練に基づき、公開コーパスのスプレッドシートを再現する52のシーケンス（計12,000操作）を手作業でキュレーションした。(2)に対処するため、各ユーザー操作後に予測を行い、その予測を受け入れるか拒否し、受け入れた場合は将来の操作を更新し、目標のスプレッドシートが得られるまでこれを繰り返すオンライン評価を提案する。我々は複数のベースライン予測器（ゼロショットLLM、ファインチューニングされたSLM、古典的モデルを含む）を用い、ベンチマークから得られる様々な特性（保存された操作と偽陽性の特性、効率性、ユーザープロファイルの影響、トリガーの影響、コンテキストの影響など）を分析する。

欠損モダリティ下でのロバストなマルチモーダル模倣学習のための強化学習誘導型検索とソフトフュージョン
Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

Jun 13

ByHassan Ismkhan, Hamid Bouchahcia

ロボットシステムは、視覚的なカメラストリームや自然言語による指示など、複数の入力モダリティを通じて世界を知覚し、それらの信号に基づいて適切なアクションを選択する必要がある。しかし、すべての入力デバイスが常に利用可能であると仮定するのは非現実的であり、センサーが故障したり、遮蔽されたり、デプロイメント中に完全に脱落したりする可能性がある。そのため、このようなモダリティ欠落シナリオに対するロバストな処理は、実世界でのロボット運用に不可欠である。本論文では、RL4IL（Reinforcement Learning guided method for Imitation Learning）を紹介する。これは、強化学習を用いて、訓練ライブラリから最も関連性の高いエキスパートデモンストレーションを特定することで、与えられた観測に最も適したアクションを選択する模倣学習手法である。幅優先探索の候補セットに対して近位方策最適化（PPO）で訓練された強化学習ポリシーが、候補デモンストレーションをランク付けし、ソフトな交差注意融合ヘッドがそれらのアクション信号を集約して最終予測を生成する。推論時にモダリティが欠落した場合、専用のモダリティ別RL検索ポリシーが訓練ライブラリから寄与デモンストレーターを特定し、ソフトな補完ヘッドが上位ランクの寄与デモンストレーター間の交差注意を介して欠落した埋め込みを再構築する。このプロセスでは、システムの再訓練は一切不要である。3つのLIBEROベンチマークスイートによる実験では、RL4ILがセンサー欠落条件下で最先端の模倣学習手法を大幅に上回り、かつポリシーネットワークの訓練を必要としないことを示している。コードは https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera で入手できる。

LLMを活用したNWDAF：AIネイティブな6Gネットワークインテリジェンスへの一歩
LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence

Jun 10

ByHenok Daniel, Omar Alhussein, Cheng Li, Jie Liang, Ernesto Damiani

ネットワークデータ分析機能（NWDAF）は、リアルタイム分析とクローズドループ自動化をサポートすることで、第5世代（5G）ネットワークにおけるゼロタッチネットワーク管理を実現する中心的な役割を果たしています。その重要な役割にもかかわらず、オープンソースのNWDAF実装は、その範囲とアクセス性の点で依然として限定的です。本論文では、オープンソースのコアネットワークFree5GCと互換性のあるオープンソースNWDAFを開発します。このNWDAFは、ネットワーク機能（NF）へのサブスクリプションを介してネットワークデータを収集し、さらに、人間のオペレータとの自然言語インタラクションを可能にする統合大規模言語モデル（LLM）インターフェースを備えています。このインターフェースは、ユーザーの意図を処理し、意味埋め込みモデルを用いてエンコードし、7つの事前定義された意図カテゴリのいずれかにマッピングして、分析クエリやイベントサブスクリプションコマンドをトリガします。このアーキテクチャは、従来のインターフェースの複雑さを抽象化し、専門知識のないユーザーでもネットワーク分析とサブスクリプションを簡単に管理できるようにします。本システムは、アクセス管理機能（AMF）およびセッション管理機能（SMF）のイベントサブスクリプション、リアルタイムモニタリング、Prometheusを介した分析結果の取得をサポートしており、これらすべては会話型インターフェースを通じてアクセス可能です。AI駆動の意図認識と標準化されたネットワーク分析を橋渡しすることにより、我々の実装はオペレータのユーザビリティを向上させ、AIネイティブな6Gネットワークへの基盤を提供します。本研究で生成されたソースコードとデータセットは、Githubリポジトリ（https://github.com/HenokDanielbfg/testbed）で公開されています。