HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

49 papers found

DVAO: マルチ報酬強化学習のための動的分散適応型アドバンテージ最適化
DVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning

May 25

ByGuochao Jiang, Jingyi Song, Guofeng Quan, Chuzhan Hao, Guohua Liu, Yuewei Zhang

116

強化学習は、大規模言語モデルを人間の意図やタスク要件に適合させるための標準的なパラダイムとなっています。グループ相対方策最適化は、近接方策最適化に代わる効率的で価値モデルを必要としない手法を提供しますが、実際の複数報酬設定への適応は依然として困難です。標準的なスカラー化手法（報酬結合方式やアドバンテージ結合方式など）には重大な欠点があります。報酬結合方式は、訓練不安定性を引き起こすほど過大な二乗の大きさを持つアドバンテージを頻繁に生成する一方、アドバンテージ結合方式は静的なハイパーパラメータに依存し、目的間の相関を無視します。これらの制約に対処するため、我々は動的分散適応アドバンテージ最適化（DVAO）を提案します。これは、ロールアウトグループ内の各目的の経験的報酬分散に基づいて結合重みを動的に調整し、学習信号の強い目的の重みを効果的に増加させ、ノイズの多い目的を抑制します。DVAOが安定した訓練のために有界なアドバンテージの大きさを維持し、自己適応的な目的間正則化メカニズムを導入することを数学的に証明します。Qwen3およびQwen2.5モデルを用いた数学的推論とツール使用のベンチマークにおける広範な実験により、DVAOがベースライン手法を大幅に上回り、優れた多目的パレートフロンティアと頑健な訓練安定性を達成することを示します。

WBench: インタラクティブビデオ世界モデル評価のための包括的マルチターンベンチマーク
WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

May 25

ByKaining Ying, Hengrui Hu, Siyu Ren, Jiamu Li, Fengjiao Chen, Ziwen Wang, Xuezhi Cao, Xunliang Cai, Henghui Ding

対話型ワールドモデルは急速に進歩しているが、既存のベンチマークは必要な能力の一部しかカバーしておらず、体系的な評価のための統一基準が存在しない。このギャップを埋めるため、我々はWBenchを提案する。これは、対話型ワールドモデルを5つの次元（映像品質、設定遵守、インタラクション遵守、一貫性、物理法則準拠）にわたって包括的に評価するマルチターンベンチマークである。WBenchは289のテストケースと1,058のインタラクションターンを含み、各ケースはワールド設定とマルチターンのインタラクション系列を指定する。多様なシーン、スタイル、被写体、一人称・三人称視点をカバーし、さらにナビゲーション、被写体動作、イベント編集、視点切り替えの4種類のインタラクションを含む。ナビゲーションにおいて、WBenchはテキスト、6-DoF姿勢、離散動作制御を統合し、異なるネイティブ入力インターフェースを持つモデルの評価を可能にする。評価には、専門家ビジョンモデルと大規模マルチモーダルモデルを組み合わせた22の自動サブ指標を用い、すべての指標は人間の判断に対して検証されている。20の最先端モデルを評価した結果、全次元にわたって高い性能を示す単一のモデルは存在しないことが判明した。各モデルの特徴的な強み、弱み、および未解決の課題について詳細な診断的洞察を提供する。コードとデータはhttps://github.com/meituan-longcat/WBenchで公開されている。

Macaron-A2UI: パーソナルエージェントにおけるジェネレーティブUIのモデル
Macaron-A2UI: A Model for Generative UI in Personal Agents

May 24

ByFancy Kong, Congjie Zheng, Murphy Zhuang, Rio Yang, Sueky Zhang, Hao Fu, Gene Jin, Song Cao, Kaijie Chen, Andrew Chen, Pony Ma

パーソナルエージェントが複雑でユーザー中心のタスクを処理するように進化するにつれて、静的なプレーンテキストチャットは急速にボトルネックになりつつある。生成型UIは必要な新しいインターフェース層として登場し、対話コンテキストから適切なコントロール、オプション、状態をリアルタイムで動的に合成する。我々は、パーソナルエージェントにおける生成型UIのためのモデルであるMacaron-A2UIを提案する。我々の目標は、エージェントが情報収集、嗜好洗練、確認、マルチゴール整理のための軽量で実行可能なUIアクションとともに自然言語を生成できるようにすることで、テキストのみの対話を超えることである。我々は、異種の対話ソースから大規模な生成型UIコーパスを構築し、制御された評価のためのA2UI-Benchを導入し、パラメータ効率的なLoRAベースの教師ありファインチューニングとそれに続く報酬駆動型強化学習を用いて30B、235B、754Bモデルを訓練する。最良のMacaron-A2UIモデルは、明示的なスキーマヒントなしでA2UI-Bench上で全体75.6を達成し、最も強力なフルスキーマの最先端ベースラインを上回る。我々は、パーソナルエージェントにおける生成型UIに関する将来の研究を支援するために、モデル、ベンチマーク、評価プロトコルを公開する。

基盤プロトコル：エージェント社会のための協調レイヤー
Foundation Protocol: A Coordination Layer for Agentic Society

May 22

ByBang Liu, Yongfeng Gu, Jiayi Zhang, Zhaoyang Yu, Sirui Hong, Maojia Song, Xiaoqiang Wang, Mingyi Deng, Zijie Zhuang, Ronghao Wang, Mingzhe Cao, Yutong Zhu, Xingjian Li, Yifan Wu, Jianhao Ruan, Yiran Peng, Shuangrui Chen, Jinlin Wang, Yizhang Lin, Dongjie Zhang, Dekun Wu, Chen Ma, Lizi Liao, Han Yu, Jian Pei, Heng Ji, Qiang Yang, Yuyu Luo, Chenglin Wu

自律エージェントは、道具から社会基盤の層へと移行しつつある。すなわち、エージェントはソフトウェアの閲覧、購入、展開、システム管理を行い、そして相互にますますやり取りするようになる。これらのシステムが規模拡大するにつれ、ボトルネックは生のモデル能力から調整へと移る。エージェントは信頼できる関係を構築し、マルチエージェントの作業を組織化し、価値を交換し、AIエコノミーを支援し、かつ現実世界の監視下で安全かつ説明責任を果たす必要がある。本稿では、出現しつつある人間-AI社会のための、グラフ優先の調整層であるFoundation Protocol（FP）を紹介する。FPは、エージェント、ツール、リソース、人間、機関、組織を含む異種エンティティを統合し、ネイティブなマルチパーティ組織化とイベントベースの協調をサポートする。また、計量、領収書、決済のための経済プリミティブを提供し、ポリシー、来歴、監査を第一級の関心事として扱う。FPは既存のプロトコルを置き換えるのではなく、それらをラップしてブリッジするように設計されており、統合とガバナンスのオーバーヘッドを低減しつつ段階的導入を可能にする。その目的は、自律的な主体性を構成可能に保ちつつ、説明責任を譲れないものとし、調整そのものを、開放的で多元的かつ統治可能な人間-AI社会の共有インフラとすることである。

TriSplat: シミュレーション対応フィードフォワード3Dシーン再構築
TriSplat: Simulation-Ready Feed-Forward 3D Scene Reconstruction

May 25

ByWeijie Wang, Zimu Li, Jinchuan Shi, Zeyu Zhang, Botao Ye, Marc Pollefeys, Donny Y. Chen, Bohan Zhuang

スパースビュー3D再構成は、画像から直接明示的なプリミティブを予測するフィードフォワード・スプラッティングネットワークによってますます取り組まれている。しかし、既存の手法のほとんどはガウシアンプリミティブに焦点を当てており、表面を間接的にしか露出させない。すなわち、下流のシミュレーション、物理推論、または身体性インタラクションのために利用可能なメッシュを抽出するには、フィードフォワードの利点を損なう高コストな事後処理ステップが依然として必要である。この制限は特にポーズフリー設定で顕著であり、そこではシーン構造とカメラパラメータをスパースな観測から共同で推定しなければならない。本稿では、配向された三角形プリミティブでシーンを表現し、単一の順方向パスからシミュレーション対応のメッシュシーンを直接エクスポートするフィードフォワード再構成ネットワークTriSplatを提案する。入力画像が与えられると、ネットワークは局所的な3D点マップ、三角形属性、カメラポーズ、およびオプションで内部パラメータを予測する。本手法では、三角形の配向を非制約の潜在変数として回帰するのではなく、予測された点マップから幾何法線を構築し、画像条件付き法線ヘッドでそれらを精緻化し、三角形パラメータ化のための安定した局所フレームに変換する。単一法線ブートストラップスケジュールにより初期の訓練がさらに安定化され、不透明度とぼかしのスケジューリングにより学習された表面表現が徐々にシャープになり、直接メッシュ抽出が可能となる。RealEstate10KおよびDL3DVでの実験は、本表現がガウシアンフィードフォワードベースラインよりも幾何学的に忠実な再構成を生成し、かつ競争力のある新規ビューレンダリング品質を維持することを示している。レンダリングプリミティブ自体が表面三角形であるため、出力は変換なしで物理エンジン、衝突検出器、標準的なレンダリングパイプラインに直接取り込むことができ、フィードフォワード3Dシーン再構成のための実用的なシミュレーション対応ソリューションとなる。

ネイティブマルチモーダルモデリングに向けて：ロードマップ
Toward Native Multimodal Modeling: A Roadmap

May 25

BySiyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun

マルチモーダルモデリングは、モダリティ非依存の推論から世界モデリングへの重要なステップを構成する。初期のアプローチは主に、エンコーダと出力ヘッドを備えた凍結言語バックボーンを組み合わせる後期融合に依存していたが、最近の研究では、優れたマルチモーダル性能を実現するためにモダリティを内在的に統合したネイティブマルチモーダルモデリング（NMM）へとパラダイムを移行させている。その可能性にもかかわらず、ネイティブアーキテクチャの設計空間は未だ十分に定義されていない。本論文では、この移行のための形式化されたロードマップをコミュニティに提示する。具体的には、アーキテクチャのネイティブ性を形式的に定義し、中期融合および前期融合を非ネイティブパラダイムから区別する。さらに、既存のネイティブモデルを入出力の二重性の観点から、(i) テキストのみを出力とするクロスモーダル理解のためのMulti-to-Text、(ii) 画像、音声、動画生成などのシナリオ指向生成のためのMulti-to-Target、(iii) 対称的な入出力による統一モデリングのためのMulti-to-Multi、の3カテゴリに整理する。我々は、理解と生成が統一トランスフォーマーパラダイム内でシームレスに共存する、決定的なNMMフレームワークへの移行に関する包括的かつ産業グレードの調査を提供する。産業的観点から、アーキテクチャの協調、大規模データキュレーション、フルスタックのトレーニングレシピ、推論・デプロイメント、そして真のネイティブモデリングのための包括的評価に至るエンドツーエンドのパイプラインを体系的に解明する。

ParaVT: エージェント型ビデオ強化学習における並列ツール使用のためのツール事前分布パラドックスの克服
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning

May 19

ByZuhao Yang, Kaichen Zhang, Sudong Wang, Keming Wu, Zhongyu Yang, Bo Li, Xiaojuan Qi, Shijian Lu, Xingxuan Li, Lidong Bing

強化学習（RL）を用いて大規模マルチモーダルモデル（LMM）を訓練し、動画処理ツール（例：クロッピング）をネイティブに呼び出せるようにすることは、長時間動画理解の有望な手法となっている。しかし、既存のネイティブRL手法ではツール呼び出しを逐次的（すなわち1ターンに1回）に行うため、単一の誤ったクロップが修正されることなく誤差を伝播し、複数ターンにわたるツール呼び出しがコンテキストを汚染し、推論コストがターン数に比例して線形に増加する。本稿では、複数の時間窓クロップを1ターンで並列に実行し、よりクリーンなコンテキストと優れたフォールトトレランスを実現する、初のマルチエージェントエンドツーエンドRL訓練フレームワークであるParaVTを提案する。しかし、標準的なRLをParaVTに適用すると、「ツール事前分布パラドックス」と名付ける障害が明らかになる。これは、ツール探索を可能にする事前訓練済みツール事前分布が、コールドスタート時の構造的フォーマットを不安定化させ、温度サンプリング下でのツールスキップ報酬近道を露呈するという問題である。より弱い事前分布を持つLMMを用いたモデル間比較によりこの主張は裏付けられる。すなわち、フォーマットは安定を保つものの、RLによってツール呼び出しがゼロに誘導され、事前分布の強さがフォーマット崩壊とツール探索の両方を引き起こす共通の要因であることが示される。我々はPARA-GRPO（解析可能性アンカー型・比率ゲート型GRPO）を提案する。これは標準的なRLに、以下の2つの相補的なメカニズムを追加する。（i）崩壊しやすい構造的トークン位置のみに適用されるターゲット形式報酬、および（ii）プロンプトごとのフレーム予算ランダム化により、ツール呼び出しがスキップよりも測定可能な報酬信号をもたらす訓練プロンプトを生成する。6つの長時間動画理解ベンチマークにおいて、ParaVTはQwen3-VLベースラインに対して平均+7.9%の改善を示し、PARA-GRPOにより訓練時のフォーマット準拠度は0.13から0.64に向上した。ツール機能が現代のLMMにますます内在化されるにつれ、RLはその結果生じる事前分布と協調する必要があり、ParaVTはエージェンティックRLのための汎用的な手法を提供する。コード、データ、およびモデル重みは公開されている。

QUEST: 完全合成タスクを用いたフロンティアディープリサーチエージェントの訓練
QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks

May 22

ByJian Xie, Tianhe Lin, Zilu Wang, Yuting Ning, Yuekun Yao, Tianci Xue, Zhehao Zhang, Zhongyang Li, Kai Zhang, Yufan Wu, Shijie Chen, Boyu Gou, Mingzhe Han, Yifei Wang, Vint Lee, Xinpeng Wei, Xiangjun Wang, Yu Su, Huan Sun

深層研究エージェントは、検索エンジンの役割をキーワードマッチによるページ検索から知識の統合へと拡張し、人間と情報の相互作用のあり方を根本的に変革しつつある。しかし、最先端のシステムは依然としてプロプライエタリであり、既存のオープンエージェントは異なるタスクタイプ間での汎化性能が低いことが多く、広範な能力を持つ深層研究エージェントをどのように訓練するかは不明瞭なままである。我々は、汎用深層研究エージェントとして機能するQUESTモデルファミリー（2Bから35Bの規模）を公開する。これらは、事実探索、引用根拠付け、レポート統合において強力な能力を備え、幅広い長期探索タスクを処理するよう設計されている。QUESTを構築するために、中間学習、教師ありファインチューニング、強化学習を組み合わせた効果的な訓練レシピを提案する。このレシピの中核は、統一ルーブリック木に基づく厳選されたデータ合成パイプラインであり、これは異なるタスクタイプに適用可能で、人間によるアノテーションを必要とせずに検証可能な報酬を伴う訓練データを合成することを可能にする。さらに、QUESTは組み込みのコンテキスト管理機構を備えており、効果的な長期推論と知識統合を実現する。わずか8Kの合成タスクを用いて、QUESTは多様なタスクタイプを網羅する8つの深層研究ベンチマークにおいて、プロプライエタリなクローズドソースエージェントに迫るか、あるいは凌駕する性能を示し、最近のオープンウェイトエージェントの中で総合的に最高の性能を達成した。我々は、モデル、データ、訓練スクリプトのすべてを公開する。

ThriftAttention：長文脈FP4注意機構のための選択的混合精度
ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention

May 21

ByJoe Sharratt

効率的なアテンションアルゴリズムは、長いコンテキストを持つワークロードにおけるアテンションの二次コストを軽減する上で重要である。先行研究では、Blackwell GPU上でブロックスケール量子化手法を活用し、アテンション計算を4ビット精度に移行することで推論を高速化している。しかし、これらの手法は長いコンテキスト設定において著しい品質劣化を引き起こす。本論文では、量子化誤差が出力に与える影響は極めて不均一であり、各クエリ-キー相互作用の重要度が高まるにつれて増大することを示す。その結果、機能的に関連する誤差は、最も重要なトークンを含む少数のアテンションブロックに集中する。本論文では、FP4の推論効率でFP16に近い長コンテキスト品質を実現する低ビットアテンションの変種「ThriftAttention」を提案する。このアプローチは2段階で進行する。第一に、ヒューリスティックにより重要度の高いクエリ-キーブロックペアを少数選出し、FP16精度で処理する。第二に、選出されたブロックはFP16で計算し、残りのブロックはFP4で計算し、両経路をオンラインソフトマックスを介して単一の出力に統合する。長コンテキストベンチマークおよびモデルファミリーにわたって実証したところ、クエリ-キーブロックのわずか5%をFP16で計算することで、ThriftAttentionは平均してFP4からFP16への性能ギャップの89.1%を回復する。また、ThriftAttentionの優位性はシーケンス長が長くなるにつれて拡大し、長いコンテキストで観察される体系的なFP4品質劣化を軽減することを示す。コードはhttps://github.com/joesharratt1229/ThriftAttention で入手可能である。

AutoResearch AI：科学的発見のためのAI駆動型研究自動化に向けて
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery

May 22

ByGuiyao Tie, Jiawen Shi, Dingjie Song, Yixiao Huang, Ziji Sheng, Xueyang Zhou, Daizong Liu, Pan Zhou, Yongchao Chen, Ran Xu, Lifang He, Qingsong Wen, Manling Li, Cong Lu, Shuai Li, Pengtao Xie, Yixuan Yuan, Rui Meng, Lei Xing, Lichao Sun, Caiming Xiong, Philip S. Yu, Jianfeng Gao

科学研究は、文献に基づく基礎付け、仮説生成、実験、検証、報告、改訂にわたる長期的なワークフローへと進む、孤立した支援を超えたAIシステムによって再形成されつつある。この変化は、科学のためのタスクレベルのAIからワークフローレベルの研究自動化への移行を示している。しかし、現在のシステムは断片化されたままであり、自律性、ドメイン範囲、実行環境、検証メカニズム、人間による監視において異なり、依然として証拠の保存、再現性、弱方向性の棄却、来歴追跡、横断領域のロバスト性、説明責任のある科学的完結に苦慮している。本サーベイは、これらの発展を、AI駆動の科学研究ワークフロー自動化の発展スペクトルとして定義されるオートリサーチ（AutoResearch）を通じて考察する。その中で、バイブリサーチ（Vibe Research）は、プロンプトベースの支援と人間による検証済み実行という人間主導の領域を指し、一方、新興のAI主導システムは、頑健な自律性を達成することなく、発見ループのより大きな部分を調整する。我々は、研究システムがワークフロー全体で制御、証拠、実行、検証、説明責任をどのように再配分するかを分析し、文献および研究の基礎付け、仮説形成と計画、実験とツール使用、フィードバック・検証・レビュー、報告と知識伝達の5つのワークフロー条件に基づいて分野を整理する。さらに、AI科学者システム、混合主導型共同研究フレームワーク、ベンチマーク、ドメイン展開、オープンソース基盤を総合する。最後に、新規性、妥当性、影響力、信頼性、来歴の5つの評価次元を提案し、オートリサーチの自律性はドメインに条件付けられており、構造化され実行可能で迅速に検証可能な設定ではより信頼できるが、具現化された、遅延のある、異種混在の、倫理的、または制度的に説明責任のあるコンテキストでは限定的であることを示す。

あなたの埋め込みモデルは、あなたが考えているよりも賢い
Your Embedding Model is SMARTer Than You Think

May 24

ByJianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee

マルチモーダル検索は、豊富な連続トークン系列を単一のグローバル表現に圧縮する単一ベクトル検索器に大きく依存している。これらの手法は効率的であるものの、高密度検索タスクに重要な細粒度の局所的な証拠を捨象してしまう。この問題への解決策として複数ベクトル手法が導入されたが、これらは厳密に訓練を必要とし、多くの場合、大域的な要約表現の必要性を無視している。これに対処するために、我々は標準的な単一ベクトルモデルが持つ潜在的な複数ベクトル能力を解放するフレームワークSMARTを提案する。まず、プールされた埋め込みに対する標準的な対比学習が、勾配流を介して先行する隠れ状態の検索幾何構造を暗黙的に形成することを示す。推論時にこれらの凍結された隠れ状態に対して直接的な後期相互作用を適用することで、SMARTはプラグアンドプレイ型のアップグレードとして機能し、多様なモダリティにわたって一貫して性能を向上させ、MMEB-V2上では最先端モデルすらも改善する。また、SMARTの優れた性能を明らかにする。単純で軽量な事後訓練は時間と計算資源を節約するだけでなく、ビジュアルドキュメント検索においてさらなる改善をもたらし、単一ベクトルモデルが最先端の複数ベクトルモデルを凌駕することを可能にする。最終的にSMARTは、マルチモーダル検索において極めて効率的な推論強化と強力なファインチューニング手法の両方を提供する。我々はコードと重みをhttps://github.com/HanSolo9682/SMARTでオープンソースとして公開する。

Pantheon360: 3D認識可能な360度動画拡散によるデジタルツイン生成の制御
Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion

May 25

ByTing-Hsuan Chen, Ying-Huan Chen, Tao Tu, Jie-Ying Lee, Cho-Ying Wu, Fangzhou Lin, Hengyuan Zhang, David Paz, Xinyu Huang, Yuliang Guo, Yu-Lun Liu, Yue Wang, Liu Ren

動画から完全なデジタルツインを生成するには、精密なカメラ制御、シーン全体の網羅、および厳密な空間時間的一貫性の制約が必要となる。しかし、透視型動画生成器の視野角（FoV）が限られているため、これらの要件は困難である。狭いFoVは長距離または多視点の軌跡を強いることになり、視点間の不整合や時間的ドリフトを増幅させる。我々は、360度動画生成が自然な解決策を提供すると主張する。すなわち、パノラマ的なカバレッジにより軌跡設計が簡略化され、一貫性を維持するための強力なグローバルコンテキストが得られる。本稿では、3D対応360度動画拡散モデルによるデジタルツイン生成の制御手法であるPantheon360を提案する。本手法は、疎な360度入力から高忠実度動画を合成する制御可能な360度動画生成フレームワークである。核心となるアイデアは、入力から再構成された明示的な3Dキャッシュであり、これが任意のユーザ定義カメラ経路に対する幾何学的足場として機能する。これにより、拡散モデルはフォトリアリスティックなテクスチャの精緻化に集中でき、一方で3Dキャッシュがグローバルな幾何学的一貫性を強制する。実験により、Pantheon360は優れた視覚品質と比類のない幾何学的一貫性を達成し、下流のシミュレーションやデジタルツイン応用に向けた信頼性が高く柔軟な360度シーン生成を可能にすることを示す。

CUA-Gym: コンピュータ利用エージェントのための検証可能な訓練環境とタスクのスケーリング
CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

May 25

ByBowen Wang, Dunjie Lu, Junli Wang, Tianyi Bai, Shixuan Liu, Zhipeng Zhang, Haiquan Wang, Hao Hu, Tianbao Xie, Shuai Bai, Dayiheng Liu, Que Shen, Junyang Lin, Tao Yu

検証可能な報酬を用いた強化学習（RLVR）は、数学、ツール使用、ソフトウェア工学などの領域で画期的な進展をもたらしてきたが、コンピュータ操作エージェント（CUA）への拡張は、決定論的な報酬を伴うスケーラブルな訓練データが不足していることによって阻害されてきた。CUA向けのそのようなデータを構築するには、一貫したタスク指示、実行可能な環境、検証可能な報酬が必要となる。しかし、手作業でキュレーションされたベンチマークは高い報酬の忠実性を実現するものの、カバーするアプリケーションは少数にとどまり、LLM判定に基づくデータセットは広範囲にスケールするものの、信頼性の高い検証を欠いている。我々はCUA-Gymを提案する。これは、タスク指示、環境状態、報酬関数を同時生成するスケーラブルなパイプラインである。具体的には、Generatorエージェントが初期状態とgolden状態を構築し、別のDiscriminatorエージェントがタスク仕様から報酬関数を記述する。オーケストレータエージェントが両者を駆動し、実行時の反復ラウンドを経て進める。生成されたタプルは最終フィルター（LLM多数決とエージェントロールアウトを組み合わせたもの）を通過し、タスクごとの敵対的ループを超えた品質を保証する。訓練環境の不足に対処するため、さらにCUA-Gym-Hubを合成する。これは、実世界のソフトウェア利用分布に基づく高忠実なモックWebアプリケーションの広範なスイートであり、CUA向けRLVRデータの規模を桁違いに拡大する。このパイプラインを用いて、我々はCUA-Gymを構築した。これは110の環境に基づく32,112の検証済みRLVR訓練タプルからなるデータセットである。CUA-Gym上でGSPOを用いて訓練されたCUA-Gym-A3BおよびCUA-Gym-A17Bは、OSWorld-Verifiedにおいて62.1%と72.6%を達成し、同等の規模の既存のオープンソースCUAを上回り、データ量と環境多様性の両方に対して性能が滑らかにスケールする。同じチェックポイントは、ホールドアウトされたWebArenaベンチマークでも改善を示し、訓練環境を超えた転移を示唆している。我々は、合成パイプライン全体、データセット、CUA-Gym-Hub環境、およびモデルをオープンソース化する予定である。

ControlLight: 制御可能な、一貫した、汎化可能な低照度強調を目指して
ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement

May 25

ByYufeng Yang, Jianzhuang Liu, Jisheng Chu, Yuqi Peng, Xianfang Zeng, Jiancheng Huang, Shifeng Chen

既存の深層学習ベースの低光強調手法は、通常、限られたデータセットと単一の強調目標で訓練されており、実世界の応用における汎化能力と制御可能性が制限される。この制約を克服するため、我々はControlLightを提案する。これは制御可能で一貫性があり、汎化可能な低光強調フレームワークである。まず、連続的な照明強度の教師信号を伴う実世界の劣化画像の大規模データセットを構築する。さらに、異なる制御強度下で一貫した出力を得るために、連続的な強調強度にわたって画像構造を保持する、位置ずれを考慮した重み付きフローマッチング損失を導入する。ControlLightにより、ユーザーは実世界の劣化した低光画像を、視覚的一貫性とリアリズムを保ちながら強度を柔軟に制御し、満足のいく強調結果に編集できる。広範な実験により、ControlLightは既存の低光強調手法に対して最先端の性能を達成し、強い連続制御可能性と実世界シナリオへの汎化性を示す。

Claw-Anything: ユーザーのデジタル世界へのより広範なアクセスを持つ常時稼働型パーソナルアシスタントのベンチマーキング
Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

May 25

ByYusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu

大規模言語モデルエージェントは、ユーザーのデジタル世界におけるあらゆる関連情報にアクセス可能な、常時稼働のパーソナルアシスタントとしてますます構想されている。しかしながら、現在のシステムはその世界のごく一部だけを対象として動作しており、文脈に依存した推論や効果的な支援には限界がある。既存のベンチマークも同様に、部分的なユーザー状態しか提供しないため、このような広範で常時稼働の環境における性能を捉えることができない。このギャップを埋めるべく、我々はClaw-Anythingを導入する。これは、エージェントのコンテキストを長期にわたる活動履歴、相互依存するバックエンドサービス、複数デバイスにわたるGUIとCLIの統合操作という三つの次元に拡張するベンチマークである。この設定を具体化するため、我々はマルチラウンドのイベント注入を通じて数ヶ月分のユーザー活動をシミュレートし、複雑なワールド状態と、無関係なイベントや矛盾するシグナルを含む現実的なノイズを生成する。エージェントは、豊富な文脈環境を推論すると同時に、そのようなノイズに対してロバストであることが求められる。この拡張されたスコープにより、エージェントがユーザーのニーズを先取りし、タイムリーな推薦を提供する先回りした支援の評価も可能となる。実験では、GPT-5.5は34.5%のpass@1しか達成できず、従来のベンチマークを大幅に下回っており、現在のエージェントの能力と常時稼働のパーソナルアシスタンスの要求との間にギャップがあることが示された。ベンチマークに加えて、我々は2,000の訓練環境を生成する自動データ生成パイプラインを公開し、ベースモデルを23.7%改善した。これにより、スケーラブルなデータ基盤の有用性が実証されている。

予測と学習：プロアクティブエージェントにおけるアイドル時間の計算資源の解放
Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents

May 25

ByHaoyi Hu, Qirong Lyu, Xianghan Kong, Weiwen Liu, Jianghao Lin, Zixuan Guo, Yan Xu, Yasheng Wang, Weinan Zhang, Yong Yu

AIエージェントは推論やツール使用において顕著な能力を示しているものの、基本的には依然として受動的であり、明示的なユーザープロンプトを受けて初めて応答を計算する。このパラダイムは重要な機会を見過ごしている。すなわち、インタラクション間のアイドル時間はほとんど無駄になり、エージェントは将来のユーザーニーズに備えることができない。このギャップを埋めるため、我々はProActを導入する。これは、アイドル時間の計算を活用して、発生し得る将来のユーザーニーズを予測し充足するプロアクティブなエージェントアーキテクチャである。進化する対話履歴と永続的なメモリを併せて分析することで、ProActは今後のニーズを予測し、情報を反復的に取得し、知識のギャップを解消し、ユーザーがクエリを開始する前に証拠を準備することを可能にする。プロアクティブな能力を厳密に評価するため、我々はProActEvalも導入する。これは、予測可能なニーズ連鎖と多様なユーザーの認知プロファイルを備えた、40分野にわたる200シナリオからなる包括的なベンチマークである。実験結果は、受動的なベースラインに対して有意な優位性を示している。ProActEvalにおいて、ProActは必要なターン数を14.8%削減し、ユーザー負担を11.7%軽減し、幻覚率を28.1%削減することで、タスク完了を加速する。さらに、MemBench評価により、ProActが最先端の内省精度を達成し、その持続的かつ堅牢な性能が実証されている。

自己回帰動画生成のためのオン方策敵対的フロー蒸留
On-Policy Adversarial Flow Distillation for Autoregressive Video Generation

May 25

ByYang Luo, Shengju Qian, Xiaohang Tang, Zirui Zhu, Yong Liu, Xin Wang, Yang You

自己回帰型ビデオ生成器は、ストリーミング、長期的、およびインタラクティブなアプリケーションにおいて魅力的であるが、強力なブラックボックス教師モデルを因果的な生徒モデルに蒸留することは依然として困難である。生徒モデルは自身のロールアウト分布のもとで学習しなければならないのに対し、実用的な教師モデルはプロンプトに条件付けられた完成済みビデオのみを公開し、アーキテクチャ、容量、時間設計、サンプリングスケジュールが異なる場合がある。このインターフェースにより、教師ありファインチューニングはオフ方策となり、スコアベースの蒸留は適用不可能となり、直接的な敵対的模倣はノイズ除去時のクレジット割り当てには疎すぎる。本論文では、異種ブラックボックスビデオ蒸留のためのオン方策フレームワークであるAdversarial Flow Distillation（AFD）を提案する。AFDは、同一のプロンプト上で教師モデルに問い合わせると同時に現在の生徒モデルをロールアウトし、プロンプト対を用いたBradley-Terry識別器を学習してクリーンサンプルにおける教師-生徒間の乖離を推定し、得られたオン方策アドバンテージを、生徒自身のノイズ付与状態に対する順方向プロセスフローマッチング更新に変換する。これにより、AFDは教師スコア、潜在変数、ノイズ除去軌跡、ステップ調整、逆連鎖強化学習を必要とせずに、密な速度場の教師信号を提供する。二つの因果的自己回帰生徒モデルファミリーにわたる実験により、AFDは一般的なビデオ品質を維持しつつ、動作および物理に敏感な生成を一貫して改善し、アブレーション実験は適応的なオン方策フィードバックと順方向プロセスクレジット割り当ての重要性を検証する。本手法は、クリーンな教師ビデオと生徒ロールアウトのみを必要とし、プロプライエタリまたは異種のビデオ生成器を効率的な自己回帰型生徒モデルに蒸留する実用的な経路を提供する。

SkillEvolBench: エピソード経験から手続き的スキルへの進化のベンチマーク
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

May 22

ByYingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang

大規模言語モデル（LLM）エージェントは、実世界のタスクを解決する過程で豊富なエピソード的軌跡を蓄積するが、そのような経験が再利用可能な手続き的スキルに蒸留され得るかどうかは未だ明らかではない。我々は、経験の再利用からスキル形成へのこのステップを評価するための診断ベンチマークであるSkillEvolBenchを導入する。本ベンチマークは、6つの実世界エージェント環境にわたる180のタスクで構成され、共有された潜在的手続きを持つ役割条件付きタスクファミリーに整理されている。エージェントは獲得タスクから学習し、圧縮された軌跡と検証器のフィードバックを用いて外部スキルライブラリを更新し、その後、文脈の変化、敵対的ショートカット、および構成をテストする固定展開タスクに直面する。自己生成およびキュレーションされたスターターのスキル進化を、スキルなしおよび生の軌跡の制御条件と比較することで、SkillEvolBenchは手続き的抽象化を、基本能力、キュレーションされた事前知識、およびエピソード的痕跡の直接的な再利用から分離する。10のモデル構成と3つのエージェントハーネスにわたって、現在のエージェントはしばしば局所的に適応するものの、頑健で再利用可能なスキルを形成することは稀であることが判明した。スキルベースの条件は獲得または再生を改善できる場合があり、個々のモデルが特定の展開軸で利得を得ることもあるが、これらの利得は固定展開下では不安定である。生の軌跡の再利用は蒸留されたスキルを頻繁に上回り、現在の抽象化手続きが将来のタスクに有用な文脈的および手続き的な手がかりを捨て去っていることを示唆している。容量とコストの分析はさらに、より多くのスキルやより大規模なTier-3リソースライブラリを書くだけでは不十分であることを示している。追加の更新はカバレッジを改善する一方で、エピソード固有のドリフトと手続き的混乱を導入する。これらの知見は、SkillEvolBenchを、一度限りの経験がタスク局所的な記憶ではなく耐久性のある手続き的知識となるタイミングを測定するためのテストベッドとして位置づけるものである。

チャネル単位のベクトル量子化
Channel-wise Vector Quantization

May 25

ByWei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

我々は、チャネル方向ベクトル量子化（CVQ）を提案する。これはパッチ単位のトークンをチャネル単位のトークンに置き換える新たな画像トークン化パラダイムである。従来のベクトル量子化が各パッチ特徴ベクトルに離散トークンを割り当てるのとは異なり、CVQは特徴マップの各チャネルを量子化する。この定式化は、画像を空間パッチのグリッドとしてではなく、視覚的詳細の離散レベルとして表現する。CVQに基づき、「次のチャネル予測」を用いた新しい視覚的自己回帰フレームワークを導入する。我々のチャネル方向自己回帰（CAR）モデルは、ラスタ順にパッチごとに画像を描画する代わりに、画像チャネルを逐次的に予測し、徐々に豊かになる視覚的詳細を生成する。具体的には、最初に大域構造をスケッチし、その後、細かい属性を精緻化する。これは人間のアーティストの作業手順に類似している。経験的に、以下のことを示す：（1）CVQは特別な工夫なしに16K以上のコードブックサイズで100％のコードブック利用率を達成し、従来のVQと比較して再構成品質を大幅に改善する。（2）CARはDPGスコア86.7、GenEvalスコア0.79を達成し、テキストから画像生成における強力な有効性を示す。

MemForest: 階層的時間索引を用いた効率的なエージェントメモリシステム
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing

May 16

ByHan Chen, Zining Zhang, Wenqi Pei, Bingsheng He, Ming Wu, Jason Zeng, Michael Heinrich, Wei Wu, Hongbao Zhang

メモリは、長コンテキストLLMエージェントを実現するための基本要素であり、継続的な提供・更新ライフサイクルを通じて相互作用間の永続的な状態をサポートする。先行研究は多数存在するものの、既存システムは2つの主要な制約、すなわち粗粒度な状態管理と本質的に逐次的な更新パイプラインにより、大きなメンテナンスオーバーヘッドを被っている。特に、更新はしばしばLLM推論と密に結合されており、全状態の書き換えを必要とするため、メモリの蓄積に伴いスケーラビリティが低下し、レイテンシが増大する。これらの課題に対処するため、我々はMemForestを提案する。これはエージェントメモリを書き込み効率の良い時間的データ管理問題として再定義するメモリフレームワークである。MemForestは並列チャンク抽出により逐次的なボトルネックを解消し、メモリ構築を並行・独立した操作に分離する。さらに粗粒度なメンテナンスを排除するため、MemTreeを導入する。これはメモリをフラットなグローバル要約ではなく時間順のツリーとして編成する階層的時間インデックスである。この設計は全状態の書き換えを局所的なノード単位の更新に置き換え、影響を受けるツリーパスのみにメンテナンスコストを削減すると同時に、時間的に進化する状態を自然に保持する。我々はMemForestを2つの長コンテキストメモリベンチマーク、LongMemEval-SとLoCoMoで評価する。LongMemEval-Sにおいて、MemForestは状態を持つベースラインの中で最高の総合性能を達成し、79.8%のpass@1精度を達成するとともに、EverMemOSを含む最先端手法と比較して約6倍高いメモリ構築スループットを維持する。

幾何学的認識画像フローマッチング
Geometry-Aware Image Flow Matching

May 24

ByJunho Lee, Kwanseok Kim, Joonseok Lee

近年の生成モデルの進展は、多様体に制約された設定における幾何認識モデリングの威力を浮き彫りにしている。しかしながら、自然画像の分野では依然としてユークリッド的仮定に留まっており、データ内の内在的な幾何構造の可能性を活用できていない。本稿では、自然画像の幾何構造を研究対象とし、意味情報が主に方向成分に符号化される一方、ノルム成分は大域平均で近似可能であることを観察する。この特性はRGB空間と潜在空間の両方で成立し、自然画像が超球面上で効果的にモデル化可能であることを示唆している。この知見に基づき、角度距離を活用した球面最適輸送フローマッチング（SOT-CFM）と、多様体上で直接ダイナミクスを制約する球面フローマッチング（SFM）を導入する。実験により、これらの幾何認識手法がユークリッド的ベースラインを上回る優れた性能を達成することを実証する。最終的に、本稿はリーマン多様体に基づくモデリングと自然画像生成の間のギャップを埋める新たな視点を提供するものである。

InstructSAM: 任意の指示で任意のインスタンスをセグメント化
InstructSAM: Segment Any Instance with Any Instructions

May 25

ByYuqian Yuan, Wentong Li, Zhaocheng Li, Yutong Lin, Juncheng Li, Siliang Tang, Jun Xiao, Yueting Zhuang, Wenqiao Zhang

本論文では、任意の指示下でマルチインスタンスセグメンテーションを実現する統合的で効率的なフレームワークInstructSAMを提案する。指示駆動型インスタンスセグメンテーションを集合構造のクエリ予測問題として定式化し、視覚言語モデル（VLM）とSAM3を巧妙に橋渡しする明示的な推論-インスタンス間クエリインターフェースを導入する。具体的には、学習可能なインスタンスクエリのバンクをVLMに注入し、指示情報および視覚情報と共に文脈化することで、各クエリがインスタンス認識スロットとして機能するようにする。また、ハイブリッドアテンション機構により、これらのクエリ、視覚トークン、指示トークン間の相互作用を促進し、インスタンスの列挙精度を向上させるとともに重複予測を低減する。得られたLLM条件付きクエリはSAM3の検出器クエリ空間に投影され、単一のフォワードパスで正確なマルチインスタンスセグメンテーションを実現する。本設計は、SAM3のコアアーキテクチャを変更することなく、高レベルの指示理解、構成推論、およびインスタンスレベルの集合予測を付与する。さらに、訓練と評価を支援するため、自由形式の指示とインスタンスレベルのマスクを組み合わせた大規模高品質な指示ベースインスタンスセグメンテーションデータセットおよびベンチマークInst2Segを構築した。広範な実験により、2BスケールのInstructSAMのみで、複雑な指示駆動型およびフレーズレベルの参照セグメンテーションベンチマークにおいて強力な結果を達成し、従来のエンドツーエンド手法やSAM3のエージェントパイプラインを上回りつつ、効率的な単一パスによるマルチインスタンス予測を可能にすることを示した。

忠実性指標は忠実性を測定しない：グラウンドトゥルースを用いたメタ評価
Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

May 24

ByYoav Gur-Arieh, Ana Marasović, Mor Geva

思考連鎖（CoT）は、大規模言語モデルの挙動を解釈・監査する上で中心的な手法となっている。しかし、これらの痕跡がモデルの予測背後にある計算を忠実に表現しないことが多いという証拠が増えつつある。これまでにいくつかの忠実性指標が提案されてきたが、それらが実際に忠実性を測定しているかどうかは未だ不明である。この問いに答えるには、内部計算が直接観測できないために入手が困難なグラウンドトゥルースラベルが必要となる。その結果、指標を提案する研究の多くは絶対的なスコアや過去の指標との比較のみを報告しており、既存の少数のベンチマークでは、忠実性とは直交する特性である妥当性や重要度といった代理指標に依存しており、CoTが信頼できるかどうかについて誤解を招く可能性がある。我々はこの課題に対処するため、出力からどのような中間計算が生成されたかを明らかにできるタスクを構築し、ステップレベルおよびCoTレベルでグラウンドトゥルースの忠実性ラベルを生成する自動ラベリングパイプラインを開発した。この方法論に基づき、13タスク・10モデルにわたる3,066個のラベル付きCoTからなるベンチマークBonaFideを提示し、これを利用して著名な忠実性指標の初の系統的評価を実施する。実験の結果、ほとんどの指標は偶然のレベルに近く、強い予測バイアスを示し、長いCoTでは性能が低下することが明らかになった。最良の指標でもCoTレベルでAUROC 0.70、ステップレベルで0.59に達するに過ぎず、いずれも設定を越えて転移せず、しかも法外に高い計算コストを伴う。我々の結果は、現在の忠実性評価における根本的なギャップを明らかにし、より信頼性が高く効率的な指標の開発を求めるものである。

言語モデルには睡眠が必要である
Language Models Need Sleep

May 25

BySangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

トランスフォーマーベースの大規模言語モデルは、長期にわたるタスクにますます利用されている。しかし、その注意機構はコンテキスト長に対してスケーリングが不十分である。この問題に対処するため、我々は睡眠様の統合機構を研究する。この機構では、モデルが定期的に最近のコンテキストを永続的な高速重みに変換した後、キー・バリューキャッシュをクリアする。睡眠中、モデルは蓄積されたコンテキストに対してN回のオフライン再帰パスを実行し、学習された局所ルールを通じて状態空間モデル（SSM）ブロック内の高速重みを更新する。推論時には、これにより覚醒時予測のレイテンシを維持しながら、追加の計算を睡眠に移行する。我々は、セル・オートマトンやマルチホップグラフ検索を含む制御された合成タスク、さらには現実的な数学的推論タスクにおいて本手法をテストした。これらのタスクでは、通常のトランスフォーマーやSSM‐注意ハイブリッドモデルは失敗する。次に、我々のモデルにおいて睡眠時間Nを増やすことで性能が向上し、特に深い推論を必要とする例で最大の改善が見られることを示す。

Helix4D: 複雑な4次元メッシュ生成
Helix4D: Complex 4D Mesh Generation

May 25

ByJiraphon Yenphraphai, Jianqi Chen, Jian Wang, Gordon Qian, Sergey Tulyakov, Rameen Abdal, Raymond A. Yeh, Peter Wonka, Chaoyang Wang

現在のビデオから4Dへの手法は、複雑なトポロジ変化、透明素材、薄い構造、内部表面に対応することが困難です。本稿では、Trellis2の表現力豊かな表現を継承し、画像から3Dへの生成をビデオ条件付き4D生成に適応させた動的メッシュ生成フレームワークHelix4Dを提案します。本設計は、以下の2つの重要な問いに基づいています：(a) Trellis2のフレーム内局所注意力が、透明物体や内部表面などの稀なケースにおける事前学習品質を維持しつつ、フレーム間で情報を共有する方法、(b) 3次元位置符号化のみに時間情報を注入し、事前学習能力を損なわない方法。(a)に対しては、スライディングウィンドウ型のフレーム間注意力と最初のフレームへのアンカーリングを採用します。最初のフレームはベースのTrellis2モデルで生成され、本モデルに注入されることで、フレーム間注意力を通じて稀なケースにおけるTrellis2の品質を継承します。(b)に対しては、冗長な低周波空間RoPE帯域を時間軸に転用する4次元時間符号化を導入し、追加パラメータなしで3次元から拡張します。広範な実験により、ActionBenchおよび我々が独自に構築した挑戦的な複雑動的セットにおいて、Helix4Dが高品質な動的メッシュ生成に有効であることを示します。

CRONOS: ビデオモデルにおける反事実的物理的一貫性のベンチマーキング
CRONOS: Benchmarking Counterfactual Physical Consistency in Video Models

May 22

ByLeón Begiristain, Olaf Dünkel, Adam Kortylewski

ビデオ予測は、汎用的な世界モデルへの道筋としてますます注目されているが、これらのシステムが下層の因果構造を学習しているのか、それとも将来予測のために単に見かけ上の視覚的相関を利用しているにすぎないのかは、依然として明らかではない。本稿では、介入に基づくベンチマークCRONOSを導入する。これは、モデルによる物理事象の予測が、視覚入力の制御された変化（シーンコンテキスト、視点、物体の外観、物体カテゴリの変化など）に適切に応答するかどうか、すなわち反事実的物理的一貫性を評価するために設計されたものである。CRONOSは、フォトリアリスティックなUnreal Engine環境で構築されており、多様なシーンとダイナミクスにわたる制御された高忠実度のビデオ生成を可能にする。従来のベンチマークとは対照的に、CRONOSは、衝突、遮蔽、落下などの基礎となる物理事象のタイプを固定したまま、視点、シーン、物体カテゴリ、物体の外観という4つの主要因子に体系的に介入する。最近のオープンソースビデオ生成モデルを評価した結果、反事実的物理的一貫性に重大な欠陥があることが明らかになった。同じ物理事象タイプに対する予測品質が、物体の外観、環境、特に視点の変化によって影響を受けるのである。CRONOSは、異なる介入に対して生成ビデオの品質がどのように変化するかを診断するための、制御可能で再現性のあるテストベッドを提供し、複数の条件の変化にわたって一貫して動作するモデルを開発するための具体的な目標を設定する。データセットとコードはプロジェクトページで公開されている。

MetaphorVU: 比喩的映像理解に向けて
MetaphorVU: Towards Metaphorical Video Understanding

May 25

ByZhuoqun Li, Boxi Cao, Guiping Jiang, Fangrui Lv, Ruotong Pan, Jianan Wang, Xiangyu Wu, Hongyu Lin, Yaojie Lu, Yong Du, Ruyin Jia, Liyan, Tingting Gao, Han Li, Xianpei Han, Le Sun

比喩的動画は複雑な概念を伝えるために実世界の様々なシナリオで広く見られ、それらの理解には通常、高次認知能力が必要である。比喩的動画理解に関する体系的研究の欠如は、マルチモーダル大規模言語モデル（MLLMs）の実世界での応用可能性を制限するだけでなく、それらの高次認知能力の徹底的な評価を妨げている。このギャップを埋めるために、我々は比喩的動画理解に特化した初の体系的かつ包括的なベンチマークであるMetaphorVU-Benchを提案する。実験を通じて、現在のMLLMsは正確な比喩的動画理解に苦戦し、人間の水準に大きく遅れをとっていることがわかった。その主な原因は不十分な領域間マッピングである。この発見に動機づけられ、我々はマッピング拡張として比喩知識グラフを構築し、一貫した性能向上を達成する推論時強化フレームワークであるMetaphorBoostを提案する。我々のベンチマーク、分析、手法は、MLLMsの高度化に関する将来の研究に有用な洞察と基盤を提供する。

カスタマイズされたマルチモーダルロールプレイに向けて
Towards Customized Multimodal Role-Play

May 1

ByChao Tang, Jianzong Wu, Qingyu Shi, Ye Tian, Aixi Zhang, Hao Jiang, Jiangning Zhang, Yunhai Tong

統合マルチモーダル理解・生成モデルは、より豊かな人間-AIインタラクションを可能にする。しかし、モダリティ間で出力の一貫性を維持しながら、キャラクターのペルソナ、対話スタイル、視覚的アイデンティティを同時にカスタマイズすることは、ほとんど未開拓のままである。このギャップを埋めるために、我々は新たなタスクであるCustomized Multimodal Role-Play（CMRP）を導入する。我々は20のキャラクターからなるRoleScape-20データセットを構築する。このデータセットは、ペルソナ、スタイル記述、視覚的・表現的手がかり、テキスト-画像相互作用をカバーするトレーニングデータと評価データを含む。統一モデルに基づき、我々はUniCharacterを考案する。これは、Unified Supervised Finetuning（Unified-SFT）とcharacter-specific group relative policy optimization（Character-GRPO）を含む二段階のトレーニングフレームワークである。わずか10枚の画像とそれに対応するインタラクション例を与えるだけで、モデルは対象キャラクターを獲得し、生成テキストと画像の両方で一貫性のあるペルソナ、スタイル、視覚的アイデンティティを示す。このプロセスには約100GPU時間を要する。RoleScape-20データセットでの実験により、提案手法が従来手法を大幅に上回ることが示された。アブレーション研究により、我々のクロスモーダル一貫性設計と少数ショットカスタマイズ戦略の有効性がさらに検証された。我々は、CMRPが統一モデリングと組み合わさることで、次世代の個性的で没入感のあるインタラクティブエージェントの基盤を提供すると主張する。

推論時におけるテキスト条件付き拡散モデルへの画像ガイダンスの注入
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference

May 24

ByAgata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik

Stable Diffusionなどのテキスト-画像拡散モデルは、テキストから高品質な画像を生成できるが、推論時に再学習を必要とせずにスケッチやスタイルといった視覚的ガイダンスを注入する方法が欠如している。既存手法は計算コストの高いファインチューニングが必要か、テキストプロンプトとの意味的不整合のリスクを伴うスタイル変換技術に依存している。本稿では、Visual Concept Fusion (VCF)を提案する。これは、概念固有の学習を一切行わずに推論時に画像とテキストプロンプトの両方によるデュアル条件付けを可能にする初の手法である。VCFは、CLIP画像特徴量をテキスト埋め込み空間に整合させることで、Stable Diffusionへの視覚概念注入を実現する。VCFは三つの要素から構成される。(1) InfoNCE損失とクロスアテンション再構成損失を用いて画像トークンをテキスト埋め込み多様体に写像する軽量アライナー、(2)テキストと画像の両方の意味を保持する融合戦略、(3)テスト時洗練のためのオプションモジュールであるPrompt-Noise Optimization (PNO)である。実験により、VCFがスタイル、構図、カラーパレットなどの視覚属性を参照画像から転送しつつ、プロンプトへの忠実性を維持することを実証する。定量的結果は、テキスト整合性(CLIPスコア)と視覚的対応性(LPIPS)の間のトレードオフを示し、VCFが参照画像への忠実度においてベースライン手法を上回ることを明らかにする。

ノイズの着色: 忠実な画像超解像のための敵対的ソボレフアライメント
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

May 22

ByHongbo Wang, Huaibo Huang, Pin Wang, Jinhua Hao, Chao Zhou, Ran He

画像超解像（SR）における生成的先験分布は、しばしば忠実な復元を損なう。我々はこの限界を、等方的な目的関数と内在的な自然画像多様体との間の基本的なスペクトル不整合に起因すると考える。Direct Preference Optimizationは調整の道筋を提供するが、スペクトル的に平坦なガウス雑音に依存するため、真正な高周波の詳細と幻覚を区別できない。この幾何学的ギャップを埋めるために、我々はASASRを提案する。これは、雑音遷移核を明示的に着色して自然なスペクトル減衰を反映させることにより、生成的フローをSobolev誘導リーマン幾何学に再構築する、理論的に基礎付けられた枠組みである。この幾何学的調整を推進するため、我々はRieszの表現定理に基づくパラメトリック敵対者を統合する。これは、最悪ケースのSobolev勾配に相当する標的化された負例を合成し、推定される構造的失敗の接空間に沿って最適化を導く。広範な評価により、ASASRは主要な生成的ベースラインを上回り、特にスペクトル一貫性と構造的忠実性の保存において優れ、アーティファクトを効果的に軽減する頑健な解を提供することを示す。

SEAL：エージェントと学習環境の相乗的共進化
SEAL: Synergistic Co-Evolution of Agents and Learning Environments

May 23

ByYihao Hu, Zhihao Wen, Xiujin Liu, Pan Wang, Xin Zhang, Wei Wu

大規模言語モデル（LLM）エージェントは相互作用を通じてますます改善されているが、ほとんどの自己進化手法はポリシーまたは学習環境のいずれかを単独で適応させる。我々はこの構造的ギャップを「エージェント-環境のミスアライメント」として特定する。すなわち、エージェントの能力境界は訓練中に変化する一方、教師信号を提供する環境は静的であるか、エージェントが顕在化させた失敗に弱くしか結びついていない。我々は、対話的なツール使用エージェントのための閉ループ共進化フレームワークであるSEALを提案する。SEALは実行可能な検証のもとでオン・ポリシーの軌跡を収集し、失敗したロールアウトをターンレベルの失敗ラベルに診断し、これらの診断を環境側の適応とモデル側のポリシー最適化の両方に対する共有信号として使用する。環境は、より明確なツールのアフォーダンス手がかり、制約情報、回復指向のフィードバックを提示することで、訓練時の学習インターフェースを進化させる。一方、ポリシーは診断誘導型のアドバンテージ再重み付けによって更新される。分布内および分布外のマルチターンツール使用評価にわたる広範な実験により、SEALが低リソースのエージェント学習を改善することが示された。わずか400の訓練サンプルで、3つのバックボーン全体で+8.25〜+26.25の平均点向上をもたらし、正の分布外転移を示す。これらの結果は、頑健な自己改善型LLMエージェントのために、学習者とその訓練時の学習基盤を共同で適応させる価値を示している。

CoSPlay: テスト時間における自己生成コードとユニットテストを用いた協調的自己対戦
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test

May 22

ByZhangyi Hu, Chenhui Liu, Tian Huang, Jindong Li, Yang Yang, Jiemin Wu, Zining Zhong, Menglin Yang, Yutao Yue

近年、検証可能な報酬を用いた強化学習（RLVR）とテスト時スケーリング（TTS）は、実行可能な検証を通じてLLMのコード生成を進歩させてきた。しかし、正解単体テスト（GT UT）は依然としてボトルネックである。最先端のRLVR手法は高コストな学習にGT UTを必要とし、既存のTTS手法はGT UTがなければ競争力を失う。このことがGTフリーのTTSへの動機付けとなる。そこでは既存手法が自己生成したUTを直接利用してコード候補を改善・選択する。しかし、そのようなUTはノイズが多く、誤ったコードと擬似的に結合していることが多く、また、信頼できるコードなしにはUTの品質を検証できない。したがって、重要な課題は両者を同時に改善することである。この目的のために、我々はCoSPlayを提案する。これはGTフリーかつ学習不要の枠組みであり、協調的自己対戦を通じてコードとUTを同時に改善する。まず多様な解法アイデアを探索し、その潜在的な失敗モードを特定して識別力のあるUTアイデアを生成する。次に、コードとUTの実行行列から得られる双方向のパスカウント信号を用いて、弱いコードを反復的に枝刈り・修正し、信頼できないUTを更新・置換することで、二つのプールを共進化させる。最後に、最高パスカウントで複数のコードが同点となった場合、正しいコードは同一の入力で一致するが誤ったコードは乖離するという性質を利用し、最大の出力コンセンサスクラスタから最終コードを選択する。4つの難易度の高いベンチマークによる実験では、Qwen2.5-7B-Instruct上のCoSPlayは平均BoNを22.1%から33.2%に、UT精度を14.6%から78.3%に向上させ、RLVRモデルCURE-7Bと同等またはそれを上回った。CURE-7Bに適用した場合、BoNをさらに5.7%改善する。CoSPlayは多様なバックボーンにも汎化し、同等のトークン予算下でGTフリーのTTSベースラインを凌駕し、予算の増加に伴ってさらなる向上が見られる。これらの結果は、GTデータを一切必要とせず、競争力のあるコード生成のためのスケーラブルな推論戦略を示唆している。

報酬傾斜分布マッチングによる少数ステップ生成器の強化
Reinforcing Few-step Generators via Reward-Tilted Distribution Matching

May 25

ByYushi Huang, Xiangxin Zhou, Ruoyu Wang, Chi Zhang, Jun Zhang, Tianyu Pang

近年の数ステップ拡散蒸留の進展により、効率的な画像生成が可能となったが、これらのモデルを人間の選好に合わせることは依然として課題である。本研究では、報酬傾斜分布マッチング蒸留（RTDMD）を提案する。これは2段階フレームワークであり、分布マッチング蒸留と報酬誘導型強化学習を数ステップフロー生成器に統合するものである。報酬傾斜教師分布に対するKL divergenceを最小化することが、分布マッチング項と報酬最大化項に自然に分解されることを示す。第1段階では、環境整合分布マッチング蒸留（AC-DMD）を導入する。これは部分区間ごとの分布マッチングを実行し、偽スコア目的関数に一貫性正則化項を追加することで、限られた更新回数下で偽スコアモデルが変化する生成器分布を追跡できるようにする。第2段階では、両方の項を共同最適化する。報酬最大化項については、確率的な中間遷移に対するGRPOスタイルの推定器と、決定論的な最終ステップを通じた直接的な報酬逆伝播を組み合わせたハイブリッド方策勾配を導出し、さらに分散低減のためのステップサブセットGRPO（SubGRPO）を導入する。SD3、SD3.5、FLUX.2を用いた実験により、RTDMDがわずか4回の推論ステップで、選好、美観、構成性の各指標において新たな最先端結果を達成し、従来の数ステップテキスト-to-画像生成手法を凌駕することを示す。コードとモデルはhttps://github.com/Harahan/RTDMDで公開されている。

彼らはどこまで行くのか？大規模言語モデルによるオンライン影響力のレッドチーミング
How Far Will They Go? Red-Teaming Online Influence with Large Language Models

May 20

ByDaniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri

大規模言語モデル（LLM）ベースのエージェントがオンライン上の議論にますます参加する中で、情報の整合性を守るためには、これらのエージェントが政治的影響力キャンペーンを支援する能力をレッドチーミングすることが極めて重要である。この目的のため、我々は、プライバシーに敏感な悪意ある行為者がソーシャルメディア環境で運用する際の運用制約とより適合するという観点から、最先端のAPI専用モデルではなく、ローカルにデプロイされたオープンソースLLMに焦点を当てる。本稿では、LLMのオーバートン・ウィンドウ（OW）——モデルが物議を醸すトピックに関して確実に表明できる政治的意見の範囲と定義される——を測定し、単純な自然言語による脱獄手法がその範囲をどの程度拡大するかを定量化するための、経験的なレッドチーミングフレームワークを導入する。我々は、10のモデルファミリーと5つの原産国にわたる30以上のLLMを評価した。その結果、政治的表現力には体系的な非対称性が見られた。すなわち、オープンソースLLMは一般的に左派的なソーシャルメディアコンテンツを生成する傾向が強く、OWはモデルサイズに反比例して縮小する傾向にあり、またオープンソースエコシステムにおける不均一な代表性にもかかわらず地域差は顕著である。さらに、脱獄手法の有効性もモデルファミリー間で大きく異なり、効果的な脱獄手法の組み合わせを特定するためのワークフローが動機づけられる。総合すると、我々の結果は、オープンソースLLMの政治的誘導可能性を監査するための実用的なフレームワークを確立し、将来の研究者がLLMによる影響力キャンペーンに対するより強力な対策を設計するのに役立つものである。

方向アライメントは言語モデルの強化学習における報酬ハッキングを軽減する
Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

May 24

ByWenlong Deng, Jiaji Huang, Kaan Ozkara, Yushu Li, Christos Thrampoulidis, Xiaoxiao Li, Youngsuk Park

報酬ハッキングは、モデルが意図されたタスクを解決するのではなく、近道を利用して代理報酬を改善する場合に発生する。我々は、言語モデルにおける強化学習更新の幾何学を通じてこの障害モードを研究し、最適化が安定した低次元の学習軌道から逸脱するときにハッキングが生じると主張する。この逸脱をパラメータ更新の支配的な特異方向を通じて分析し、報酬ハッキングが生じた実行では、正常な実行よりも方向変化が著しく大きいことを示す。この観察に基づき、勾配をクリーンな参照部分空間内に留めるように制約する「信頼方向射影」を導入する。数学的推論に関する報酬ハッキング実験全体において、提案手法は近道の利用を遅らせ、タスク性能をより良く維持する。

SemBridge：スパースエンコーダにおける多言語意味ブリッジを用いた言語転移
SemBridge: Language Transfer in Sparse Encoders via Multilingual Semantic Bridges

May 25

BySeongtae Hong, Youngjoon Jang, Jia-Heui Ju, Hyeonseok Moon, Heuiseok Lim

スパースエンコーダは、語彙空間内での用語の重要度を表現することで高精度な検索を実現するが、その英語中心の構造は非英語言語への言語転移にとって重大な障害となる。この構造的制限を克服するために、我々は多言語ブリッジモデルを活用したスパースエンコーダにおける言語横断適応のための新しい埋め込み初期化手法SemBridgeを提案する。SemBridgeは、多言語の密埋め込みをブリッジとして用い、ソース語彙とターゲット語彙間の意味的整合性を確立する。すべてのソーストークンに直接依存するのではなく、SemBridgeは意味的に関連する少数のソース言語トークンを選択し、それらを用いて各ターゲット言語トークンを初期化することで、意味的ノイズを効果的に除去し、ターゲットトークンをコア同義語の精密な線形結合として再構築する。これにより、ファインチューニング中の収束を加速し、訓練効率を向上させる。5つの言語と4つのスパースアーキテクチャにわたる広範な実験により、SemBridgeが優れたゼロショット検索性能を達成し、既存のベースラインと比較してファインチューニング後の検索性能を一貫して向上させることが実証された。これらの結果は、SemBridgeが多様な言語環境で高性能なスパース検索システムを展開するための実用的なソリューションであることを検証している。

SimuWoB: 高速かつ高忠実なGUIエージェントベンチマーキングのための実世界モバイルアプリシミュレーション
SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking

May 24

ByGuohong Liu, Jialei Ye, Pengzhi Gao, Wei Liu, Jian Luan, Yunxin Liu, Yuanchun Li

大規模言語モデルを活用したモバイルGUIエージェントは急速に進歩しており、現実的かつ包括的な評価に対する緊急の必要性が生じている。既存のベンチマークは再現性を優先しているが、実際のアプリケーションでの報酬構築の難しさから、多くの場合オープンソースアプリやファイル操作タスクに限定されており、ベンチマーク設定と実世界での使用との間に乖離が生じている。さらに、ほとんどのベンチマークは基本的な接地とナビゲーションに焦点を当てており、複雑で長期的なインタラクションのカバレッジは限られている。これらの制限に対処するため、我々はSimuWoBを導入する。これは完全に合成されたモバイルGUIエージェント向けベンチマークであり、多様なタイプと難易度にわたる120の挑戦的なタスクを含む。我々は、高忠実度のタスクと環境を合成し、各タスクに対して自動的に有効な報酬を提供する堅牢な仮想環境生成フレームワークを構築する。各環境はURLを介してアクセス可能なバックエンド不要のウェブページとしてデプロイされ、効率的かつ再現性のある評価を可能にする。我々は、最先端のモバイルGUIエージェント数種類に対して包括的な実験を実施した。平均成功率はわずか27.92％であり、長期的タスクでは17.82％に低下し、複雑なシナリオにおける現在のエージェントの顕著な弱点が明らかになった。実世界のサンプルタスクとの評価結果の比較は、我々の合成環境に基づくエージェント評価が良好に一般化することを示している。さらに、主要な能力次元にわたる診断的洞察を提供し、将来のモバイルGUIエージェント開発への示唆について議論する。

ルーティングではなく表現：マルチタイムスケールPPOにおける代理ハッキングの克服
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

May 21

ByJing Sun

強化学習における時間的クレジット割り当ては長年にわたり中心的な課題であった。神経生物学におけるドーパミンシステムの多時間スケールエンコーディングに着想を得て、近年の研究では、近位政策最適化（PPO）などのアクター・クリティックアーキテクチャに複数の割引率を導入し、短期応答と長期計画のバランスを取ろうとしてきた。しかし、本論文は、複雑な遅延報酬タスクにおいて多時間スケール信号を無分別に融合すると、深刻なアルゴリズム病理を引き起こす可能性があることを明らかにする。我々は、時間的注意ルーティング機構を政策勾配にさらすと代理目的関数のハッキングが生じる一方、勾配フリーの不確実性重み付けを採用すると不可逆的な近視的退化を引き起こすことを系統的に実証する。この現象を時間的不確実性のパラドックスと命名する。これらの問題に対処するため、我々はターゲットデカップリングアーキテクチャを提案する。クリティック側では多時間スケール予測を保持して補助的表現学習を強制し、アクター側では短期信号を厳密に分離し、長期アドバンテージのみに基づいて政策を更新する。LunarLander-v2環境における複数の独立したランダムシードにわたる厳密な実証評価により、提案アーキテクチャが統計的に有意な性能向上を達成することが示された。ハイパーパラメータ調整に依存することなく、最小の分散で一貫して「環境解決」閾値を超え、政策崩壊を完全に排除し、単一時間スケールのベースラインを罠にかけるホバリング局所最適から脱出する。実験を再現するためのソースコードはhttps://github.com/ben-dlwlrma/Representation-Over-Routingで公開されている。

通信とポリシーの分離：帯域幅制約下でのロバストなMARL
Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

May 20

ByAlexi Canesse, Benoît Goupil, Jesse Read, Sonia Vanier

通信はマルチエージェント強化学習（MARL）における協調を可能にするが、ドローンスウォームによる捜索救助など多くの実世界の応用では、厳しい帯域制約の下で動作する。多くの通信アーキテクチャでは、依然としてポリシーの実行とエージェント間通信の両方に共有の潜在表現が用いられる結合されたボトルネックが存在する。その結果、メッセージサイズの削減はポリシーの潜在空間を直接制限し、しばしば顕著な性能劣化を引き起こす。本研究では、この問題に対して二つの貢献を行う。第一に、エージェントごとの正規化された帯域幅予算βを導入し、スパース性、ラウンド数、メッセージ次元を単一の比較可能な制約に統合する。第二に、通信経路をポリシーの潜在表現から分離する最小限のアーキテクチャSLIMを提供し、同期的通信の利点を活かしながら、帯域幅の影響をポリシー容量の影響から分離することを可能にする。本手法を、通信が不可欠な複数の部分観測可能なMARLベンチマークで評価する。提案手法は最先端の性能を達成し、帯域幅を削減してもわずかな劣化しか生じず、限られた通信下でのスケーラビリティとロバスト性を示す。

評価エンジニアリングに向けて：実環境におけるML評価ハーネスの実証研究
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild

May 22

ByZhimin Zhao, Zehao Wang, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

評価ハーネスとは、モデルの呼び出し、データの読み込み、メトリクスの計算、結果の報告を管理することでモデル評価を統括するソフトウェアシステムである。機械学習インフラストラクチャにおいて重要な役割を担う一方で、その運用上の課題や工学的な問題はこれまでほとんど注目されてこなかった。本稿では、57の評価ハーネスを対象とした実証研究を実施し、5段階からなるハーネスモデルを導出するとともに、16,560件の課題をワークフローステージと根本原因に基づいて分類した。ハーネスの運用上の課題は、主に仕様策定段階（課題全体の41.4%）に集中しており、この段階ではハーネスが外部モデル、データセット、スコアリング判定機能と統合される。運用上の課題の根本原因として頻度が高いのは、未実装の機能（24.3%）、ドキュメントの不足（20.3%）、入力バリデーションの欠如（17.2%）の3つであり、これらを合わせると分類された課題の61.7%を占める。これらは既存機能の欠陥と、意図したワークフローを阻害する能力不足の両方にわたる。根本原因はワークフローステージによっても異なり、環境非互換性と外部依存関係の破損はプロビジョニング段階の課題の36.2%を占める一方、評価段階ではアルゴリズムエラー（25.9%）とバリデーションの欠如（22.5%）が支配的である。これらの知見は、評価工学をソフトウェア工学の独立した分野として扱うための実証的基盤を提供するものである。

ECHO：ターミナルエージェントは世界モデルを無料で学習する
ECHO: Terminal Agents Learn World Models for Free

May 23

ByVaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos

CLIエージェントは、言語モデルにとって最も身体性を備えた設定に近い存在である。すなわち、モデルがコマンドを発し、端末がそれを実行し、返ってくるストリーム（stdout、エラー、ファイル、ログ、トレース）がその結果を記録する。本稿では、このストリームが監視信号であると主張するが、標準的なエージェント強化学習（RL）はそれを破棄している。GRPO形式の学習では、スパースな結果レベルの報酬でアクショントークンを更新する一方で、ロールアウト中に得られる環境応答は無視される。失敗したロールアウトは、環境がどのように応答するかについての豊富な証拠を含んでいるにもかかわらず、ほとんどポリシー勾配信号を提供しない。本稿では、ECHO（Environment Cross-entropy Hybrid Objective）を導入する。これは、アクショントークンに対する標準的なポリシー勾配損失と、政策自身の行動に起因する環境観測トークンを予測するように訓練する補助損失とを組み合わせたハイブリッド目的関数である。ECHOはGRPOと同じ前方パスを再利用し、追加のロールアウトを必要とせず、端末フィードバックをすべてのロールアウトに対する密な監視に変換する。ECHOはTerminalBench-2.0においてGRPOのpass@1を2倍にする。すなわち、Qwen3-8Bでは2.70%から5.17%へ、Qwen3-14Bでは5.17%から10.79%へ向上する。また、ECHOは、自身が生成したものではない軌跡においても、端末ダイナミクスをよりよく予測する政策を生み出す。保持されたロールアウト全体において、ECHOは環境トークンの交差エントロピーを大幅に減少させる一方、GRPO単独ではほとんど変化しない。ベースのQwen3-8Bから、ECHOは専門家デモンストレーションなしで、保持された端末タスクにおいて専門家SFT後のGRPOと同等の性能を達成し、TerminalBench-2.0における専門家SFT初期化の利点の約半分を回復する。いくつかの設定では、環境予測損失のみで検証器なしの自己改善が可能となり、政策が環境相互作用からのみ学習することで、未知のOODタスクにおいて改善することができる。これらの結果は総合して、環境観測は単なる将来の行動のための文脈ではなく、すでにあらゆるロールアウトに存在する密なオン・ポリシー監視信号であることを示唆している。

生成AIによる交通安全データへのアクセス拡大：空間的自然言語クエリのためのスキーマ基盤フレームワーク
Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

May 20

ByMahdi Azhdari, Eric J. Gonzales

交通安全分析では、事故記録、道路属性、地理空間データをGISベースのワークフローを通じて統合する必要があるが、そのアクセスは行政機関や地域コミュニティの関係者の間で不均一である。技術的な前提条件により、安全計画の中心となる分析ツールと、それらを実際に使用できる実務者の間には隔たりが生じている。地方自治体、学校委員会、住民は安全上の懸念を抱えていても、関連データを取得、フィルタリング、マッピング、分析する能力が限られていることがある。生成AIはこの格差を縮める手段を提供するが、その公共部門での利用は、信頼性、再現性、ガバナンスに関する疑問を提起する。本論文では、交通安全性分析のためのスキーマに基づく自然言語インターフェースを提示する。大規模言語モデル（LLM）を用いてユーザーの意図を解釈しつつ、信頼できるデータベースに対する確定的かつ検証可能な実行を保持する。ユーザーのクエリは構造化された意味フレームに変換され、ルールベースのレイヤーで検証され、空間操作の型付き有向非巡回グラフにコンパイルされ、PostGISデータベース上で実行される。この制限された設計により、言語解釈と確定的実行が分離され、結果の再現可能性とスキーマへの準拠を維持しつつ、アクセス障壁が取り除かれる。本フレームワークは、マサチューセッツ州全域の交通安全性データベースを用いて評価される。このデータベースは、事故記録、道路属性、学校、バス停、横断歩道、自治体境界などの地理空間レイヤーを統合している。すべてのクエリは正常に実行され、評価クエリの29%において検証レイヤーがエラーを修正しており、柔軟な自然言語と厳格なスキーマ要件との間の乖離を反映している。この結果は、自然言語のアクセシビリティと確定的実行を組み合わせることが、交通安全性データへのアクセスを拡大するための実践的な方向性であり、公共部門の計画における信頼できるAIへの示唆を持つことを示唆している。

HorizonStream: ストリーミング3D再構成のための長期的アテンション
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22

ByChong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang

オンライン3D再構成では、厳格な因果性と有界メモリの制約下でカメラ姿勢とシーン形状を推定する必要がある。既存手法は長いシーケンスにおいてドリフト、ジッタ、あるいは崩壊に悩まされることが多い。我々はこれらの失敗の根本原因を基本的なミスマッチに求める。ストリーミング形状は本質的に時間的に不均一であり、短期間の対応関係から持続的な大域スケールに至るまでの証拠が存在する。しかし、現在のアーキテクチャは均一で病的な影響パターンを強制する。例えば、スライディングウィンドウはハードカットオフを課し、非ゲート型のリカレンスや因果的注意はキャッシュ飽和やスパイク状の注意沈み込みを引き起こす。この問題を解決するため、我々は幾何学的伝播を証拠影響カーネルとして形式化し、このカーネルを明示的に分解する長期地平トランスフォーマーであるHorizonStreamを提案する。長期的時間要素に対しては、Geometric Linear Attentionがチャネル方向の減衰率を学習し、幾何学的証拠の有界かつ複数時間スケールの伝播を可能にする。短期的空間要素に対しては、Spatiotemporal RoPEを用いたGeometric Local Attentionが信頼性の高い3Dマッチングを実行しつつ注意沈み込みを抑制する。最後に、Metric Readout Tokensが持続的な幾何学的状態から直接、安定したスケールと剛体姿勢を復元する。大規模実験により、HorizonStreamはわずか48フレームのクリップで学習しながら、10,000フレームを超えるシーケンスに安定して一般化し、一定メモリと線形時間で最先端のストリーミング3D再構成性能を達成することを示す。プロジェクトページ: https://3dagentworld.github.io/horizonstream/

RankJudge：マルチターンLLM-as-a-Judge合成ベンチマーク生成器
RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

May 20

ByZhenwei Tang, Zhaoyan Liu, Rasa Hosseinzadeh, Tongzi Wu, Keyvan Golestan, Jesse C. Cresswell

インタラクティブなLLMベースのアプリケーションが作成・洗練されるにつれ、モデル開発者は生成テキストの品質を多様な軸に沿って評価する必要がある。単純なシステムでは人間による評価が実用的かもしれないが、会話型チャットボットのような複雑なシステムでは、生成テキストの量が人間のアノテーションリソースを圧倒する可能性がある。モデル開発者は、LLMを用いて生成品質を判定する自動評価に大きく依存し始めている。しかし、既存のLLMを判定者とするベンチマークの大半は、マルチターン会話の複雑さに合致しない単純なQ&Aタスクに焦点を当てている。本稿では、参照文書に基づくマルチターン会話においてLLMを判定者とする評価のためのベンチマーク生成器RankJudgeを紹介する。RankJudgeは、一方の会話に1つの欠陥が1ターンに注入された会話ペアを作成する。この構成により、ペアとなる会話に良し悪しの明確なラベルを付与でき、欠陥カテゴリを個々のターンに正確に分離できるため、判定に対して厳密な同時正解基準が可能になる。我々はRankJudgeを機械学習、生物医学、金融の各領域に実装し、21の最先端LLM判定者を評価し、ブラッドリー・テリー模型を用いてそれらをランク付けする。また、本定式化により各会話ペアに難易度評価を付与することができ、これを利用して評価スライスを動的に精選しラベルノイズを低減する（人間によるアノテーションで確認済み）。判定者のランキングは、部分観測可能性、粗い正解基準、代替のランダムウォーク評定アルゴリズムのもとでも安定していることが分かった。

MotiMotion: モーション制御による視覚的推論を用いた動画生成
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

May 21

ByLee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu

現在のモーション制御による画像から動画への生成モデルは、しばしば疎で不正確かつ因果的に不完全なユーザー提供の軌跡に厳格に従う。このような依存は、特に二次的な因果的帰結を見逃すことで、不自然または非妥当な結果を生み出すことが多い。この問題に対処するため、我々はモーション制御を「推論してから生成する」問題として再定式化する新しいフレームワーク MotiMotion を導入する。因果的に基づき常識に沿った相互作用を促進するために、学習不要の視覚言語推論器を活用し、主要軌跡の画像空間座標を洗練し、妥当な二次的モーションを想像（ハルシネーション）させる。さらにモーションの自然性を向上させるため、ガイダンス強度を調整する信頼度認識制御方式を提案し、高信頼度の計画にはモデルが厳密に従いつつ、低信頼度の入力下では内部生成事前分布を用いてアーティファクトを補正できるようにする。系統的評価を支援するため、モーションによって新たな事象が引き起こされる相互作用中心のシーンから成る新しい画像から動画へのベンチマーク MotiBench を厳選する。MotiBench における VLM ベースの評価と人間による評価の両方で、MotiMotion がより妥当な物体の挙動や相互作用を持つ動画を生成し、既存手法よりも好まれることが示された。

インスタンスセグメンテーションを用いたピクセルレベルの舗装損傷評価
Pixel-Level Pavement Distress Assessment Using Instance Segmentation

May 25

ByLogan Dewick, Bibesh Pyakurel, Kong Pheng Yang, Nazim Choudhury, M. G. Sarwar Murshed

自動舗装損傷評価には、画像レベルの分類や粗いバウンディングボックス検出以上のものが求められ、維持管理に関連する定量化に必要な幾何学的精度を達成するために、細く分岐し不規則なひび割れの正確な位置特定が必要となる。本論文では、Mask R-CNNインスタンスセグメンテーションに基づくビジョンベースの舗装損傷分析システムを提示し、車載スマートフォンで収集され、縦ひび割れ、横ひび割れ、ワニ皮ひび割れ、ポットホールに対してポリゴンラベルが手動で付与されたカスタムフィールド収集道路画像データセットUWGB-StreetCrack上で評価する。一貫したファインチューニングプロトコルの下で、5つのDetectron2ベースのMask R-CNNバックボーンバリアントを検討した。最も性能の高いモデルであるResNet-101 FPNバックボーンを備えたMask R-CNNは、プロジェクト固有のバウンディングボックスマッチングプロトコルにおいて、適合率84.23%、再現率90.04%、F1スコア87.04%を達成した。同じモデルは、累積予測ひび割れ面積率2.164%を出力し、グラウンドトゥルースのひび割れ面積率2.170%に極めて近い値となった。セグメンテーションシステムを検出器ベースの代替手法と比較するため、CSPDarknet53ベースのYOLO検出器もデータセットに適応させ再学習させたところ、検証プロトコルにおいて適合率27.5%、再現率20.7%となった。これらの結果は、インスタンスセグメンテーションがフィールド舗装画像と累積ひび割れ面積推定の実用的な方向性であることを示す一方で、アノテーションの一貫性、クラス不均衡、交絡因子の除去、マスクレベルのベンチマーキングにおける未解決の課題も明らかにしている。

ClaimDiff-RL: 視覚的主張比較による細粒度キャプション強化学習
ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

May 24

ByTianle Li, Xuyang Shen, Yan Ma, Rongxin Guo, Shaoxiang Chen, Jiacheng Chen, Haochen Wang, Hongyang Tang, Yucong Zhou, Yu Cheng

長文画像キャプション生成では、強化学習（RL）における報酬粒度の問題が明らかになる。キャプションはシーケンス全体として評価される一方で、重要な誤りは個々の視覚的主張のレベルで発生する。優れた高密度キャプションは、忠実かつ情報豊かであり、幻覚を避けつつ、顕著な詳細を省略してはならない。しかし、ペアワイズ選好、参照ベースの評価指標、および全体的なスカラー報酬は、これらの局所的な誤りを単一のシーケンスレベルの信号に圧縮し、事実性と網羅性のトレードオフを不明瞭にする。我々はClaimDiff-RLを提案する。これは、参照条件付きの原子的な主張差分をキャプションRLの報酬単位として使用するフレームワークである。画像、アクターキャプション、および参照キャプションが与えられると、マルチモーダル判定器が視覚的に基づいた差分を列挙し、各差分を画像に対して検証し、オープンボキャブラリのエラータイプと重大度を割り当て、報酬構成のための差分ごとの統計を生成する。これにより、幻覚的な主張と省略された顕著な事実を別々に測定し調整可能になる。実験により、全体的なスカラー報酬は欠落事実を増やすことで幻覚を減少させることができるが、ClaimDiff-RLはこの忠実性と網羅性のトレードオフを明らかにし、よりバランスの取れた動作点を可能にすることが示された。160画像の人間ラベル付き診断ベンチマーク、公開キャプションベンチマーク、およびVQAベンチマークにおいて、ClaimDiff-RLは幻覚と欠落事実のバランスを改善し、一般的な能力を維持し、さらにはオブジェクトカウンティング、空間関係、シーン認識などのいくつかの細粒度のCapability次元においてGemini-3-Pro-Previewを凌駕した。これらの結果は、型付けされ検証可能な主張差分が、細粒度で診断可能なキャプションRLのための効果的な報酬単位であることを示唆している。

大規模推論モデルにおける批判メカニズムの解読
Decoding the Critique Mechanism in Large Reasoning Models

May 22

ByHoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan

大規模推論モデル（LRM）は、バックトラッキングや自己検証のメカニズムを備えており、中間ステップを修正して正しい解に到達することができ、複雑な論理ベンチマークにおいて高い性能を示す。本研究では、このような振る舞いは、モデルが自身の誤りを検出するのに十分に強力な「批判」能力を持つ場合にのみ有益であると仮定する。本稿では、中間推論ステップに算術誤りを挿入することにより、現在のLRMがエラーからどのように回復するかを体系的に調査する。注目すべきことに、我々は特異かつ重要な現象を発見した。誤りが思考連鎖全体に言語化された修正なしに伝播するにもかかわらず、思考プロセス終了後にモデルが正しい最終回答に到達するのである。この回復は、モデルが誤りを検出し自己修正を誘発する内部メカニズムの存在を示唆しており、我々はこれを隠れた批判能力と名付ける。特徴空間分析に基づき、この振る舞いを表す高い解釈可能性を持つ批判ベクトルを特定する。複数のモデルスケールとファミリーにわたる広範な実験により、このベクトルで潜在表現を操作することで、追加の学習コストなしにモデルの誤り検出能力が向上し、テスト時スケーリングの性能が改善されることが示された。本知見はLRMの批判行動の理解を深め、自己検証メカニズムを制御・改善する有望な方向性を示すものである。コードはhttps://github.com/mail-research/lrm-critique-vectorsで公開している。

干し草の山の中の針を見つける：反事実摂動による弱教師ありログインスタンス異常位置特定に向けて
Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

May 9

ByYutszyuk Wong, Wentai Wu, Yuen-Ying Yeung, Weiwei Lin

ログ異常検出は、システム運用とセキュリティ保証にとって重要なタスクである。しかし、大規模なネットワークシステムでは、ログデータが膨大に生成される一方で、インスタンスレベルのアノテーションには非常にコストがかかるため、きめ細かな異常位置特定には大きな困難が伴う。この課題に対処するため、我々はLogMILP（プロトタイプと摂動によって強化されたマルチインスタンス学習に基づくログ異常位置特定）を提案する。これは、バッグレベルのラベルのみを用いて、バッグレベルの異常検出とインスタンスレベルの異常位置特定の両方を可能にする弱教師ありフレームワークである。本手法は、反実摂動一貫性正則化を伴うプロトタイプ誘導型構造モデリングによって、モデルが重要なログエントリを正確に特定するよう導き、粗粒度の監督下での位置特定の信頼性と解釈可能性を向上させる。3つの公開データセットにおける実験結果は、LogMILPが競争力のある検出性能を達成すると同時に、インスタンスレベルの位置特定において著しく高い信頼性を提供することを示している。コードはhttps://github.com/YUK1207/LogMILPで公開されている。