ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

MinerU-Diffusion: 拡散デコードによる逆レンダリングとしての文書OCRの再考
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23
ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He
110
4

光学文字認識(OCR)技術は、行単位の文字転写から構造化文書解析へと進化し、レイアウト・表・数式を含む長文シーケンスの復元が求められるようになっている。近年の視覚言語モデルの進展にもかかわらず、既存システムの多くは自己回帰的なデコーディングに依存しており、長文書処理では逐次的な遅延が生じ、誤り伝搬が増幅されるという課題がある。本研究では、文書OCRを逆レンダリングの観点から再考し、左から右への因果的生成はタスクの本質的な性質ではなく、シリアライゼーションによる人為的制約であると論じる。この知見に基づき、我々はMinerU-Diffusionを提案する。これは視覚的条件付けのもとで自己回帰的逐次デコーディングを並列拡散デノイジングに置き換える、統一された拡散ベースのフレームワークである。MinerU-Diffusionはブロック単位の拡散デコーダーと不確実性駆動のカリキュラム学習戦略を採用し、安定した訓練と効率的な長文推論を実現する。大規模実験により、MinerU-Diffusionが自己回帰ベースラインと比較して最大3.2倍の高速デコーディングを達成しつつ、頑健性を一貫して向上させることを実証した。提案するSemantic Shuffleベンチマークによる評価では、言語事前情報への依存度低減と強力な視覚的OCR能力がさらに確認されている。

2

WildWorld: 生成型ARPGに向けた行動と明示的状態による動的世界モデリングのための大規模データセット
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24
ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
66
1

力学系理論と強化学習では、世界の進化を、行動によって駆動される潜在状態のダイナミクスと捉え、視覚的観測は状態に関する部分的な情報を提供すると見なします。近年のビデオ世界モデルは、データからこの行動条件付きダイナミクスを学習しようと試みています。しかし、既存のデータセットはこの要件にほとんど適合していません。一般的に、多様で意味論的に有意義な行動空間が欠如しており、行動は基礎となる状態を介するのではなく、視覚的観測に直接結びつけられています。その結果、行動は画素レベルの変化と絡み合いがちで、モデルが構造化された世界のダイナミクスを学習し、長期的な進化において一貫性を維持することを困難にしています。本論文では、写実的なAAAアクションRPG(Monster Hunter: Wilds)から自動収集された、明示的な状態アノテーション付きの大規模行動条件付き世界モデリングデータセット「WildWorld」を提案します。WildWorldは1億800万フレーム以上を含み、移動、攻撃、スキル発動など450以上の行動を特徴とし、キャラクターの骨格、世界状態、カメラポーズ、深度マップのフレーム同期アノテーションを備えています。さらに、Action FollowingとState Alignmentを通じてモデルを評価するWildBenchを導出しました。大規模な実験により、意味的に豊富な行動のモデル化と長期的な状態一貫性の維持において持続的な課題が明らかになり、状態を意識したビデオ生成の必要性が浮き彫りになりました。プロジェクトページはhttps://shandaai.github.io/wildworld-project/です。

3

SpecEyes: 投機的知覚と計画によるエージェント型マルチモーダルLLMの高速化
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24
ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
42
2

エージェント型マルチモーダル大規模言語モデル(MLLM)(例:OpenAI o3、Gemini Agentic Vision)は、視覚的ツール呼び出しの反復的な実行により顕著な推論能力を実現している。しかし、認識・推論・ツール呼び出しの連鎖的なループは、重大な逐次処理オーバーヘッドを伴う。このオーバーヘッドは「エージェンシック深度」と呼ばれ、許容不能な遅延を招き、システムレベルの並行性を深刻に制限する。そこで本論文では、この逐次処理のボトルネックを打破するエージェントレベルの投機的加速フレームワーク「SpecEyes」を提案する。我々の重要な洞察は、軽量でツール非依存のMLLMが投機的プランナーとして機能し、高コストなツールチェーンの早期終了を可能にする実行軌道を予測できる点にある。この投機的計画を制御するため、回答分離性に基づく認知ゲーティング機構を導入する。これは、正解ラベルを必要とせずにモデルの自信を定量化し、自己検証を実現する。さらに、軽量モデルのステートレス並行性を活用して大規模モデルのステートフル逐次実行を隠蔽する異種並列ファネルを設計し、システムスループットを最大化する。V* Bench、HR-Bench、POPEを用いた大規模実験により、SpecEyesはエージェントベースラインに対し精度を維持あるいは最大6.7%向上させつつ、1.1~3.35倍の高速化を達成し、並行ワークロード下でのサービススループットを向上させることを実証した。

4

静的テンプレートから動的ランタイムグラフへ:LLMエージェントのワークフロー最適化に関するサーベイ
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23
ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan
41
1

大規模言語モデル(LLM)ベースのシステムは、LLM呼び出し、情報検索、ツール利用、コード実行、メモリ更新、検証を組み合わせた実行可能なワークフローを構築することで課題を解決する手法として、ますます一般的になりつつある。本サーベイでは、このようなワークフローをエージェント的計算グラフ(ACGs)として捉え、その設計と最適化に関する最近の手法を概観する。我々は、ワークフロー構造が決定されるタイミングに基づいて文献を整理する。ここで構造とは、どのコンポーネントやエージェントが存在するか、それらが互いにどのように依存するか、および情報がそれらの間をどのように流れるかを指す。この視点により、展開前に再利用可能なワークフローの骨格を固定する静的手法と、実行前または実行中に特定の実行のためにワークフローを選択、生成、または修正する動的手法とを区別する。我々はさらに、先行研究を3つの次元に沿って整理する:構造が決定されるタイミング、ワークフローのどの部分が最適化されるか、およびどの評価信号(タスク指標、検証器信号、選好、トレース由来のフィードバックなど)が最適化を導くか。また、再利用可能なワークフローテンプレート、実行ごとの具体化されたグラフ、実行トレースを区別し、再利用可能な設計選択と、特定の実行で実際に展開される構造、そして実現された実行時動作とを分離する。最後に、下流タスク指標をグラフレベルの特性、実行コスト、堅牢性、および入力間の構造的変動で補完する、構造を考慮した評価の視点を概説する。我々の目的は、明確な用語集、新規手法を位置づけるための統一フレームワーク、既存文献群に対するより比較可能な視点、そしてLLMエージェントのためのワークフロー最適化における将来の研究のためのより再現性の高い評価基準を提供することである。

5

PEARL: パーソナライズされたストリーミング動画理解モデル
PEARL: Personalized Streaming Video Understanding Model

Mar 20
ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang
36
3

人間の新概念に対する認知は、本質的にストリーミングプロセスである。私たちは新しい物体やアイデンティティを継続的に認識し、時間の経過とともに記憶を更新していく。しかし、現在のマルチモーダル個人化手法は、静的な画像やオフライン動画に大きく限定されている。これにより、連続的な視覚入力と即時の実世界フィードバックが分断され、将来のAIアシスタントに不可欠なリアルタイムで対話的な個人化応答を提供する能力が制限されている。 この隔たりを埋めるため、私たちはまず新規タスク「Personalized Streaming Video Understanding(PSVU:個人化ストリーミング動画理解)」を提案し、正式に定義する。この新たな研究方向の研究を促進するため、この挑戦的な設定を評価するために特別に設計された初の包括的ベンチマーク「PEARL-Bench」を導入する。これは、2つのモードにおいて特定のタイムスタンプで個人化された概念に応答するモデルの能力を評価する:(1)離散フレーム内の特定人物や物体に焦点を当てるフレームレベル、(2)連続フレームにわたって展開される個人化された行動に焦点を当てる新規の動画レベル。PEARL-Benchは132のユニークな動画と2,173の細粒度アノテーション(正確なタイムスタンプ付き)で構成される。概念の多様性とアノテーション品質は、自動生成と人間による検証を組み合わせたパイプラインを通じて厳密に確保されている。 この挑戦的な新設定に取り組むため、私たちはさらにPEARLを提案する。これはプラグアンドプレイで訓練不要な戦略であり、強力なベースラインとして機能する。8つのオフラインおよびオンラインモデルを用いた広範な評価により、PEARLが最先端の性能を達成することが実証された。特に、3つの異なるアーキテクチャに適用した場合でも一貫したPSVUの改善をもたらし、非常に効果的かつ堅牢な戦略であることが証明された。本研究が視覚言語モデル(VLM)の個人化を推進し、ストリーミング型個人化AIアシスタントに関するさらなる研究を刺激することを期待する。コードはhttps://github.com/Yuanhong-Zheng/PEARLで公開されている。

6

DA-Flow: 拡散モデルによる劣化を考慮したオプティカルフロー推定
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24
ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim
35
1

高品質なデータで学習されたオプティカルフローモデルは、ブラー、ノイズ、圧縮アーティファクトなどの実世界の劣化に直面すると、性能が大幅に低下することが多い。この課題を克服するため、我々は実世界の劣化を含む映像から正確な密な対応点推定を目指す新たなタスク「劣化対応型オプティカルフロー(Degradation-Aware Optical Flow)」を定式化する。鍵となる洞察は、画像復元拡散モデルの中間表現が本質的に劣化情報を認識しているが、時間的認識を欠いている点である。この制約を解決するため、我々はモデルを時空間的全注意機構によって隣接フレーム間の関係を捉えるように拡張し、その結果得られる特徴量がゼロショット対応点推定能力を示すことを実証的に明らかにした。この発見に基づき、拡散特徴量と畳み込み特徴量を反復精緻化フレームワーク内で融合するハイブリッドアーキテクチャDA-Flowを提案する。DA-Flowは、複数のベンチマークにおいて深刻な劣化条件下で既存のオプティカルフロー手法を大幅に上回る性能を示す。

7

SIMART: MLLMによるモノリシックメッシュのシミュレーション対応アーティキュレートアセットへの分解
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24
ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
33
1

高品質な関節構造を持つ3Dアセットは、具現化AIや物理シミュレーションに不可欠であるにも関わらず、現在の3D生成技術は静的なメッシュに焦点が当てられており、「シミュレーション対応」なインタラクティブオブジェクトの生成には未だ課題が残っている。近年の関節オブジェクト作成手法の多くは、複数段階のパイプラインに依存しており、分離されたモジュール間で誤差が累積されやすい。一方、統合型MLLM(大規模言語モデル)は、静的アセットの理解とシミュレーション対応アセットの生成を単一段階で実現する道を開く。しかし、高密度なボクセルベースの3Dトークン化は長い3Dトークン列と高いメモリオーバーヘッドを生み出し、複雑な関節オブジェクトへの拡張性を制限している。この問題に対処するため、我々は部品レベルの分解と運動予測を統合的に行うMLLMフレームワーク「SIMART」を提案する。SIMARTは疎な3D VQ-VAEを導入することで、高密度ボクセルトークンと比較してトークン数を70%削減し、高精細な多部品アセンブリを実現する。SIMARTはPartNet-Mobilityおよび実世界AIGCデータセットにおいて最先端の性能を達成し、物理ベースのロボットシミュレーションを可能にする。

8

UniGRPO:推論主導型ビジュアル生成のための統合ポリシー最適化
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24
ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang
29
1

テキストと画像の生成を交互に行う統合モデルは有望なパラダイムとして登場し、学界ではテキスト生成には自己回帰モデル、画像生成にはフローマッチングを採用する方向に収束しつつある。この方向性を推進するため、我々は交互生成に特化した統合強化学習フレームワークを提案する。本アプローチをその基本単位である「単一ラウンドの推論駆動型画像生成」で検証する。これは、モデルが最初にユーザープロンプトを推論によって拡張し、続いて画像合成を行うプロセスである。 このマルチモーダル生成プロセスを疎な終端報酬を持つマルコフ決定過程として定式化し、GRPOを用いてテキストと画像の生成ポリシーを共同最適化するUniGRPOを導入する。過剰な設計を避けるミニマリスト手法を採用し、推論には標準GRPOを、視覚的合成にはFlowGRPOをシームレスに統合することで、両モダリティにおける確立された訓練レシピを活用する。 複数ラウンドの交互生成へのスケーラビリティを確保するため、元のFlowGRPOに2つの重要な修正を加える:(1)マルチターン相互作用やマルチ条件生成(編集など)を含む複雑なシナリオへのスケーリングに不可欠な、線形で分岐のないロールアウトを維持するため、分類器不要ガイダンスを排除;(2)潜在空間のKLペナルティを速度場への直接的なMSEペナルティに置き換え、報酬ハッキングを効果的に緩和するため、よりロバストで直接的な正則化信号を提供する。 実験により、この統合訓練レシピが推論を通じて画像生成品質を大幅に向上させることが実証され、完全な交互生成モデルの将来の事後訓練に向けた堅牢でスケーラブルなベースラインを提供する。

9

RealMaster: レンダリングされたシーンを写真のようにリアルな映像へと高める技術
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24
ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
22
4

最先端のビデオ生成モデルは驚異的な写実性を実現するが、生成コンテンツを特定のシーン要件に合わせるために必要な精密な制御を欠いている。さらに、明示的な幾何学構造を持たないため、これらのモデルは3D一貫性を保証できない。一方、3Dエンジンはシーン要素を細かく制御でき、設計上本来備わっている3D一貫性を提供するが、その出力はしばしば「不気味の谷」に留まっている。このシミュレーションと現実のギャップを埋めるには、出力が入力の幾何学構造とダイナミクスを正確に保持する「構造的精密性」と、素材、照明、テクスチャを写実性達成のために包括的に変換する「大域的意味変換」の両方が必要である。本論文では、3Dエンジンの出力と完全に整合しつつ、レンダリングされたビデオを写実的なビデオに昇華させるためにビデオ拡散モデルを活用する手法「RealMaster」を提案する。このモデルを訓練するため、アンカーベースの伝播戦略により対データセットを生成する。具体的には、最初と最後のフレームを写実性が高まるように強化し、幾何学的条件付け手がかりを用いて中間フレーム全体に伝播させる。次に、これらの対ビデオに対してIC-LoRAを訓練し、パイプラインの高品質な出力をモデルに蒸留する。これにより、パイプラインの制約を超えた一般化が可能となり、シーケンス途中に現れるオブジェクトやキャラクターを扱え、アンカーフレームを必要としない推論を実現する。複雑なGTA-Vシーケンスを用いた評価において、RealMasterは既存のビデオ編集ベースラインを大幅に上回り、元の3D制御で指定された幾何学構造、ダイナミクス、アイデンティティを保持しつつ写実性を向上させる。

10

2Xplat:専門家二人は一人のジェネリストに勝る
2Xplat: Two Experts Are Better Than One Generalist

Mar 22
ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park
19
3

ポーズフリーのフィードフォワード型3Dガウススプラッティング(3DGS)は、較正されていないマルチビュー画像から単一のフォワードパスで高品質なガウス表現を生成することを可能にし、迅速な3Dモデリングの新たな領域を開拓した。この分野における主流のアプローチは、幾何学中心の3D基盤モデル上に構築された統一的なモノリシック構造を採用し、単一のネットワーク内でカメラポーズの推定と3DGS表現の合成を同時に行う。構造的には合理化されているものの、このような「オールインワン」設計は、幾何学的推論と見た目のモデリングを共有表現内で絡み合わせるため、高精細な3DGS生成には最適ではない可能性がある。本研究では、幾何学推定とガウス生成を明示的に分離した2エキスパート設計に基づくポーズフリーのフィードフォワード型3DGSフレームワーク「2Xplat」を提案する。専用の幾何学エキスパートが最初にカメラポーズを予測し、その結果が明示的に強力な見た目エキスパートに渡され、3Dガウシアンが合成される。概念的には単純であり、先行研究ではほとんど検討されていなかったが、提案手法は非常に効果的であることが実証された。5,000回未満の学習イテレーションで、提案する2エキスパートパイプラインは、従来のポーズフリーのフィードフォワード型3DGSアプローチを大幅に上回り、最先端のポーズ既知手法と同等の性能を達成した。これらの結果は、主流の統一パラダイムに疑問を投げかけ、複雑な3D幾何学推定と見た目合成タスクにおけるモジュール設計原則の潜在的な利点を示唆している。

11

マルチモーダル連鎖思考におけるトークンレベル方策最適化の再考
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24
ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng
17
1

マルチモーダル連鎖的思考(CoT)推論では、大規模視覚言語モデルが知覚的接地と多段階推論を交互に織り交ぜた推論軌道を構築する必要がある。しかし、検証可能な報酬による強化学習(RLVR)手法の既存研究では、推論を粗い粒度で最適化するのが一般的であり、視覚的接地の度合いを区別せずにCoTを一様に扱っている。本研究では、マルチモーダル推論軌道のトークンレベル分析を行い、成功する推論には知覚的接地と探索的推論の両方を反映した構造化されたトークン動態が特徴的であることを示す。この分析に基づき、隠れ状態の類似性から知覚事前分布を導出し、平滑なゲート機構を通じてトークンエントロピーと統合することでトークンレベルのアドバンテージを生成するPEPOを提案する。PEPOはGRPOやDAPOなどの既存RLVRフレームワークとシームレスに統合可能であり、追加の教師信号や補助ブランチを必要としない。多様なマルチモーダルベンチマークにおける大規模実験により、幾何学推論、視覚的接地、視覚パズル解決、少数ショット分類にわたって、強力なRLベースラインを一貫して堅牢に改善しつつ、安定した訓練動態を維持することを実証する。コード:https://github.com/xzxxntxdy/PEPO

12

注意以前に参加せよ:自己回帰的注視による効率的でスケーラブルな動画理解
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12
ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin
14
1

マルチモーダル大規模言語モデル(MLLM)は汎用動画理解を進展させてきたが、長時間・高解像度の動画には課題を抱えている。既存手法では、視覚トランスフォーマー(ViT)やLLMにおいて時空間的な冗長性が大きいにもかかわらず、すべてのピクセルを均等に処理してしまう。本研究では、ViTやMLLMによる処理前に冗長なパッチを除去する軽量モジュール「AutoGaze」を提案する。次のトークン予測と強化学習により訓練されたAutoGazeは、ユーザー指定の誤差閾値内で動画を再構築可能な最小限のマルチスケールパッチセットを自己回帰的に選択し、情報を保持しつつ冗長性を排除する。実験では、AutoGazeが視覚トークンを4~100倍に削減し、ViTとMLLMを最大19倍高速化することを実証。これによりMLLMを1,000フレーム・4K解像度の動画にスケーリング可能とし、動画ベンチマークで優れた結果(例:VideoMMEで67.0%)を達成した。さらに、5分間の4K解像度動画を含む初の高解像度長尺動画QAベンチマーク「HLVid」を導入。AutoGazeで拡張したMLLMはベースラインを10.1%上回り、従来最高性能のMLLMを4.5%凌駕した。プロジェクトページ: https://autogaze.github.io/

13

VP-VLA: 視覚言語行動モデルにおけるインターフェースとしてのビジュアルプロンプティング
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23
ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
9
1

Vision-Language-Action(VLA)モデルは通常、視覚観測と言語指示を直接ロボット制御信号に写像する。この「ブラックボックス」的な写像は、単一のフォワードパスで指示解釈・空間的接地・低レベル制御を同時に処理することを強いるため、空間的精度の低さや分布外シナリオでの頑健性の限界が生じやすい。これらの課題を解決するため、我々は構造化視覚プロンプトインターフェースを介して高次推論と低次実行を分離する二重システムフレームワーク「VP-VLA」を提案する。具体的には、「System 2プランナー」が複雑な指示をサブタスクに分解し、関連する対象物体と目標位置を特定する。これらの空間的アンカーは、十字マークやバウンディングボックスなどの構造化視覚プロンプトとして視覚観測に直接重ねられる。訓練時には新規の補助視覚接地目的関数により強化されつつ、これらのプロンプトに導かれた「System 1コントローラー」が、精密な低次実行動作を確実に生成する。Robocasa-GR1-TabletopベンチマークとSimplerEnvシミュレーションによる実験では、VP-VLAが成功率をそれぞれ5%、8.3%向上させ、QwenOFTやGR00T-N1.6を含む競合ベースラインを凌駕することを示した。

14

ThinkJEPA: 大規模視覚言語推論モデルによる潜在世界モデルの強化
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23
ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu
9
1

近年の潜在世界モデル(例:V-JEPA2)の進展は、映像観測から未来の世界状態を予測する有望な能力を示している。しかしながら、短い観測ウィンドウに基づく密な予測は時間的文脈を制限し、予測器を局所的・低水準の外挿に偏らせがちである。これにより、長期的な意味論の捕捉が困難となり、下流タスクにおける有用性が低下する。一方、視覚言語モデル(VLM)は、均一にサンプリングされたフレームに推論を行うことで、強力な意味的基盤と一般的知識を提供する。しかし、計算量に起因する疎なサンプリング、細かな相互作用状態をテキスト指向の表現に圧縮する言語出力ボトルネック、そして小規模な行動条件付きデータセットへの適応時のデータレジームの不一致により、単体の密な予測器としては理想的ではない。本研究では、密なフレームのダイナミクスモデリングと、長期的な意味的ガイダンスを、二つの時間経路を介して統合するVLM誘導型JEPAスタイルの潜在世界モデリングフレームワークを提案する。すなわち、細かな動作と相互作用の手がかりを扱う密なJEPAブランチと、より大きな時間ストライドで知識豊富なガイダンスを提供する均一サンプリングのVLM思考ブランチから構成される。VLMの漸進的推論信号を効果的に転送するため、階層的金字塔表現抽出モジュールを導入し、多層のVLM表現を潜在予測と互換性のあるガイダンス特徴量へ集約する。手の操作軌道予測に関する実験により、本手法が強力なVLMのみのベースラインおよびJEPA予測器ベースラインを上回り、より頑健な長期的ロールアウト挙動を実現することを示す。

15

AgentSLR: 疫学におけるシステマティックレビューをエージェントAIで自動化
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20
ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi
8
1

系統的な文献レビューは科学的エビデンスを統合する上で不可欠であるが、コストがかかり、規模拡大が困難で時間を要するため、エビデンスに基づく政策立案のボトルネックとなっている。本研究では、大規模言語モデルが、論文検索、論文スクリーニング、データ抽出、報告書合成に至る系統的レビューのワークフロー全体を自動化できるかどうかを検討する。WHOが指定する9つの優先病原体に関する疫学レビューに適用し、専門家が作成した正解データに対して検証した結果、我々のオープンソースのエージェント型パイプライン(AgentSLR)は、研究者と同等の性能を達成しつつ、レビュー時間をおよそ7週間から20時間(58倍の高速化)に短縮した。5つの先進的モデルを比較した結果、SLRにおける性能は、モデルサイズや推論コストよりも、各モデルが持つ独自の能力に大きく依存することが明らかになった。ヒューマンインザループ検証を通じて、主要な失敗モードを特定した。我々の結果は、エージェント型AIが専門分野における科学的エビデンス統合を大幅に加速できることを実証している。

16

CanViT:能動的視覚基盤モデルに向けて
CanViT: Toward Active-Vision Foundation Models

Mar 23
ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna
7
1

能動的コンピュータビジョンは、逐次的で局所的な「一瞥」を通じて効率的で生物学的に妥当な知覚を実現するが、スケーラブルな汎用アーキテクチャと事前学習パイプラインが欠如している。その結果、能動的ビジョン基盤モデル(AVFM)は未開拓のままであった。本研究では、初のタスク非依存・ポリシー非依存のAVFMであるCanViTを提案する。CanViTは、シーン相対RoPEを用いて、網膜トピック的なVision Transformerバックボーンと、空間トピック的なシーン全体の潜在作業空間である「キャンバス」を結合する。この高容量作業記憶との効率的な相互作用は、新規の非対称クロスアテンション機構であるCanvas Attentionによって支援される。我々は「思考」(バックボーンレベル)と「記憶」(キャンバスレベル)を分離し、キャンバス側の自己アテンションと全結合層を排除することで、低遅延の逐次推論と大規模シーンへのスケーラビリティを実現する。ラベルフリーの能動的ビジョン事前学習スキームとして、ポリシー非依存の受動-能動的密潜在蒸留を提案する:ランダムな位置、ズームレベル、長さの低解像度一瞥のシーケンスから、シーン全体のDINOv3埋め込みを再構築する。CanViT-Bをランダム初期化から、1320万のImageNet-21kシーン(従来の能動的モデル比で一桁多い)と10億のランダムな一瞥を用いて、単一のH100上で166時間かけて事前学習した。ADE20Kセグメンテーションにおいて、凍結したCanViT-Bは単一の低解像度一瞥で38.5% mIoUを達成し、推論FLOPsを19.5分の1に抑え、ファインチューニングなしで最高の能動的モデル(27.6%)を上回り、FLOPsまたは入力が同等のDINOv3教師モデルも凌駕した。追加の一瞥を与えられると、CanViT-Bは45.9% ADE20K mIoUに達する。ImageNet-1k分類では、凍結した教師プローブを用いてCanViT-Bは81.2% top-1精度を達成する。CanViTは、より長いロールアウト、より大きなシーン、新しいポリシーへ一般化する。我々の研究は、セマンティックセグメンテーションにおける受動的ビジョンと能動的ビジョンの間の大きな隔たりを埋め、新たな研究軸としてのAVFMの可能性を実証する。

17

公平な分割がリーダーボードを一変:CHANRGが明らかにしたRNA二次構造予測における限定的な一般化性能
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20
ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu
6
1

RNA二次構造の正確な予測は、トランスクリプトームアノテーション、非コードRNAの機能的解析、およびRNA治療薬設計の基盤をなす。深層学習とRNA基盤モデルによる近年の進展は、現在のベンチマークがRNAファミリー間の汎化性能を過大評価している可能性があるため、解釈が困難である。本研究では、構造を考慮した重複排除、ゲノムを考慮した分割設計、マルチスケール構造評価を用いて、Rfam 15.0の1000万以上の配列から選定された170,083の構造的に非冗長なRNAからなるベンチマーク、Comprehensive Hierarchical Annotation of Non-coding RNA Groups (CHANRG) を提案する。29種類の予測手法を比較した結果、基盤モデル手法はホールドアウトデータでは最高精度を達成したが、分布外データではその優位性の大半を失った。一方、構造化デコーダーと直接的なニューラル予測手法は顕著に高い頑健性を維持した。この精度差は配列長を統制した後も持続し、構造カバレッジの低下と高次構造の誤った接続の両方を反映していた。CHANRGと、パディングを必要とせず対称性を考慮した評価スタックを組み合わせることで、分布外頑健性が実証可能なRNA構造予測手法を開発するための、より厳格でバッチ不変なフレームワークを提供する。

18

MultiBind: マルチサブジェクト生成における属性誤結合のベンチマーク
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23
ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang
5
1

被駆動型画像生成において、単一画像内の複数エンティティに対する細粒度制御への期待が高まっている。マルチリファレンスワークフローでは、ユーザーが複数の被写体画像、背景リファレンス、およびエンティティ索引付きの詳細なプロンプトを提供し、1つのシーン内の複数人物を制御する場合がある。この設定において、主要な失敗モードは被写体間属性誤結合である。属性が保持、編集、または誤った被写体に転移される現象だ。既存のベンチマークと評価指標は全体的な忠実度や被写体単位の自己類似性を重視するため、こうした失敗の診断が困難である。我々は実写の複数人物写真から構築したベンチマーク「MultiBind」を提案する。各インスタンスは、スロット順序付けされた被写体切り抜き画像とマスク・バウンディングボックス、正規化された被写体リファレンス、修復された背景リファレンス、構造化アノテーションから導出された密なエンティティ索引付きプロンプトを提供する。さらに、生成された被写体をグラウンドトゥルースのスロットに対応付け、顔識別、外見、姿勢、表情の専門モデルを用いてスロット間類似度を測定する次元単位混同評価プロトコルを提案する。対応するグラウンドトゥルース類似度行列を差し引くことで、自己劣化と真の被写体間干渉を分離し、ドリフト、スワップ、支配、ブレンディングといった解釈可能な失敗パターンを可視化する。最新のマルチリファレンス生成器を用いた実験により、MultiBindが従来の再構成指標では検出できない結合失敗を明らかにすることを示す。

19

VTAM: VLAを超えた複雑な物理的相互作用のための映像・触覚・行動モデル
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24
ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou
4
1

Video-Action Models(VAM)は、実体化知能の有望なフレームワークとして登場し、生のビデオストリームから暗黙的な世界の力学を学習することで、時間的に一貫した行動予測を生成する。このようなモデルは視覚的推論を通じて長期的タスクで高い性能を示すが、重要な相互作用状態が視覚のみでは部分的にしか観測できない接触豊富なシナリオでは限界がある。特に、微細な力制御や接触遷移は視覚トークンに確実に符号化されず、不安定あるいは不正確な行動を引き起こす。この隔たりを埋めるため、我々は触覚知覚を補完的な接地信号として組み込むマルチモーダル世界モデリングフレームワーク、Video-Tactile Action Model(VTAM)を提案する。VTAMは事前学習済みビデオトランスフォーマーを軽量なモダリティ転移ファインチューニングにより触覚ストリームで拡張し、触覚-言語ペアデータや独立した触覚事前学習を必要としない効率的なクロスモーダル表現学習を実現する。マルチモーダル融合を安定化させるため、行動モデルにおける視覚潜在表現の支配を防ぎ、バランスの取れたクロスモーダル注意を強化する触覚正則化損失を導入する。VTAMは接触豊富な把持操作で優れた性能を示し、平均90%の堅牢な成功率を維持する。高精度な力覚認識を要するポテトチップスのピックアンドプレースのような困難なシナリオでは、VTAMはπ0.5ベースラインを80%上回る。我々の知見は、触覚フィードバックの統合が世界行動モデルにおける視覚推定誤差を補正するために不可欠であり、物理的に接地された実体化基盤モデルへの拡張可能なアプローチを提供することを示す。

20

まばらだが決定的:大規模言語モデルのRLVRファインチューニングにおける分布シフトのトークンレベル分析
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23
ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
4
0

検証可能な報酬を用いた強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を大幅に改善するが、これらの改善をもたらすトークンレベルのメカニズムは未解明である。本研究では、RLVRがもたらす分布的影響に関する体系的な実証研究を、以下の3つの主要分析に沿って提示する:(1) ベースモデルとRLモデル間の分布的シフトのトークンレベル特性評価、(2) クロスサンプリング介入によるトークンレベルの分布的シフトが系列レベル推論性能に与える影響、(3) これらのシフトのトークンレベルにおける微細なメカニズム。我々は、RLファインチューニングが極めて疎的かつ標的化された変化を誘起し、ベース方策とRL方策間で意味のある乖離を示すトークン分布はごく一部であることを発見した。さらに、トークンのエントロピー、位置的な集中度、確率質量の再配分の分析を通じて、これらのシフトの構造と進化を特徴付ける。これらの疎的な変化の機能的重要性を評価するため、介入予算を変えながらベースモデルとRLモデル間でトークン選択を選択的に交換するクロスサンプリング実験を実施する。RLでサンプリングされたトークンのごく一部をベースモデルの生成系列に挿入するだけでRLの性能向上効果が段階的に回復する一方、同程度の少数のベーストークン選択をRL生成系列に注入すると性能はベースレベルに急落することから、RLVRの性能向上に直接寄与する少数のトークンレベル決定群を特定する。最後に、優勢信号の乖離重み付き変種を診断的介入として探索し、それらがベースラインを上回る改善をもたらし得ることを見いだす。総合して、我々の結果はRLVRが誘起する分布的変化を明らかにし、RLVRファインチューニングを標的化された洗練プロセスとして理解するための微細なトークンレベルの視点を提供する。

21

TrajLoom: 映像からの高密度未来軌道生成
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23
ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
4
1

未来の動きを予測することは、映像理解と制御可能な映像生成において極めて重要である。密な点軌跡はコンパクトで表現力豊かな動きの表現であるが、観測された映像からその将来の変化をモデル化することは依然として困難である。本論文では、過去の軌跡と映像コンテキストから将来の軌跡と可視性を予測するフレームワークを提案する。我々の手法は3つの構成要素からなる:(1) 各点をピクセル中心アンカーからのオフセットとして表現することで位置依存バイアスを低減するGrid-Anchor Offset Encoding、(2) マスク復元と時空間一貫性正則化を用いて密な軌跡のコンパクトな時空間潜在空間を学習するTrajLoom-VAE、(3) 境界手がかりと安定したサンプリングのための方策オンK段階ファインチューニングにより、潜在空間内でフローマッチングを通じて将来軌跡を生成するTrajLoom-Flow。さらに、実写映像と合成映像を網羅し、映像生成ベンチマークに沿った標準化された設定を備えた統一ベンチマークTrajLoomBenchを導入する。最先端手法と比較して、本手法は予測時間枠を24フレームから81フレームに拡大するとともに、データセット間で動きの現実性と安定性を向上させる。予測された軌跡は下流の映像生成・編集タスクを直接支援する。コード、モデルチェックポイント、データセットはhttps://trajloom.github.io/で公開されている。

22

連続学習におけるメモリ効率の良い帰納的バイアスとしての抽象化
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17
ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani
4
1

現実世界は非定常かつ無限に複雑であるため、知的エージェントはゼロから再学習するという現実的でないコストを伴わずに、継続的に学習する必要がある。オンライン継続学習はこの設定に対する枠組みを提供するが、新しい情報の学習はしばしば既得知識と干渉し、忘却や一般化性能の低下を引き起こす。この問題に対処するため、我々はモデルが事例間で共有される潜在的な関係構造を捕捉するよう促す、損失レベルでの修正手法であるAbstraction-Augmented Training(AAT)を提案する。具体的なインスタンスとその抽象表現を共同で最適化することにより、AATはメモリ効率的な帰納バイアスを導入し、厳密なオンラインデータストリームにおける学習を安定化させ、再生バッファを不要とする。抽象化の多面的な性質を捉えるため、我々は2つのベンチマークを導入しAATを評価する:エンティティマスキングを通じて抽象化が実現される制御された関係データセットと、共有される諺を通じて抽象化が表現される物語データセットである。その結果、AATは追加メモリを全く必要とせず、訓練目的関数への変更も最小限であるにもかかわらず、強力な経験再生(ER)ベースラインに匹敵する、またはそれを上回る性能を達成することを示す。本研究は、構造的抽象化がERに対する強力なメモリフリーの代替手段であることを明らかにする。

23

VISion On Request:疎で動的に選択される視覚言語相互作用によるVLLM効率の向上
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24
ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos
3
1

大規模視覚言語モデル(LVLM)の効率化を図る既存のアプローチは、主に視覚トークンの削減という概念に基づいている。しかし、この手法は情報ボトルネックを生み出し、特に細粒度の理解と推論を要する困難なタスクにおいて性能を損なう。本研究では、このパラダイムに挑戦し、視覚情報を廃棄することなく推論コストを削減する手法であるVISion On Request(VISOR)を提案する。VISORは画像を圧縮する代わりに、画像トークンとテキストトークン間の相互作用を疎化することで効率を向上させる。具体的には、言語モデルは少数の戦略的に配置されたアテンション層を通じて、高解像度の視覚トークン全体に注目する。すなわち、テキストと画像間の効率的なクロスアテンションにより一般的な視覚コンテキストを提供し、適切に配置され動的に選択された少数のセルフアテンション層が視覚表現自体を精緻化し、必要に応じて複雑な高解像度推論を可能にする。この原理に基づき、まずセルフアテンション層の数を変えることで様々な計算予算に対応する単一の汎用ネットワークを学習し、次に、サンプルごとの複雑度に基づいて視覚計算を動的に割り当てる軽量なポリシーメカニズムを導入する。大規模な実験により、VISORが計算コストを大幅に削減しつつ、多様なベンチマーク群において最先端の結果を匹敵または凌駕し、詳細な視覚理解を要する困難なタスクで優れた性能を発揮することを示す。

24

ワンショットで十分!単眼カメラによる実世界向け新規視点生成の学習
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24
ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
3
1

単眼による新視点合成は、従来マルチビュー画像ペアによる教師付けを必要とし、学習データの規模と多様性を制限してきた。本論文では、これは不要であると主張する:単一の視点で十分なのである。我々は、インターネット上の非対応画像のみで完全に学習されたOVIEを提案する。学習時には、単眼深度推定器を幾何学的な足場として活用する:ソース画像を3D空間にリフトアップし、サンプリングされたカメラ変換を適用し、投影することで擬似ターゲットビューを得る。ディオクルージョンに対処するため、幾何学的、知覚的、テクスチャ的損失を有効領域に制限するマスク付き学習手法を導入し、3千万枚の未整理画像での学習を可能にした。推論時、OVIEは幾何学情報を必要とせず、深度推定器や3D表現を一切必要としない。実世界画像のみで学習されたOVIEは、ゼロショット設定において従来手法を凌駕し、2番目に優れたベースラインと比べて600倍高速である。コードとモデルはhttps://github.com/AdrienRR/ovie で公開されている。

25

Ego2Web: 一人称視点映像に基づいたウェブエージェントベンチマーク
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23
ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong
3
1

マルチモーダルAIエージェントは、オンライン上のWeb操作を伴う複雑な実世界のワークフローを自動化する役割を増している。しかし、現在のWebエージェントのベンチマークは重大な限界を抱えている。それは、評価がWeb上のインタラクションと知覚に完全に焦点を当てており、ユーザーの現実世界の物理的環境に基づいていない点である。この限界により、例えばエージェントがユーザー周辺の物体を認識するための一人称視点の視覚知覚(ARグラス経由など)を活用し、その後に関連するオンラインタスクを完了させる必要があるような、重要なシナリオでの評価が妨げられている。 この隔たりを解消するため、我々はEgo2Webを提案する。これは、一人称視点の映像知覚とWebエージェントの実行を橋渡しする初のベンチマークである。Ego2Webは、実世界の一人称視点映像記録と、その完了に視覚的理解、Webタスク計画、オンライン環境でのインタラクションを必要とするWebタスクを組み合わせる。我々は、電子商取引、メディア検索、知識検索など多様なWebタスク種別にわたって、構築が適切で高品質な映像とタスクのペアを精選するために、自動データ生成パイプラインと人的検証及び改良を組み合わせて利用する。 本ベンチマークの正確かつスケーラブルな評価を促進するため、我々は新規のLLM-as-a-Judgeによる自動評価手法、Ego2WebJudgeも開発した。これは人間の判断との一致率が約84%に達し、既存の評価手法を大幅に上回る。我々のEgo2Webを用いた多様なSoTAエージェントによる実験では、それらの性能は低く、全タスクカテゴリーにおいて大幅な改善の余地があることが示された。また、タスク設計に関する包括的アブレーション研究を実施し、提案タスクにおける正確な映像理解の必要性と、現在のエージェントの限界を明らかにした。 Ego2Webが、物理世界とデジタル世界をシームレスに「見て、理解し、行動する」真に有能なAIアシスタントの開発に向けた、重要な新たなリソースとなることを期待する。

26

双曲空間視覚言語モデルにおける部分対全体の意味的代表性に基づく不確実性誘導型合成的アライメント
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23
ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun
3
1

ビジョン・ランゲージモデル(VLM)は優れた性能を達成しているが、そのユークリッド埋め込み表現は、部分-全体や親子構造といった階層的関係を捉えることに限界があり、複数オブジェクトの合成的シナリオでは課題に直面することが多い。双曲空間VLMは、包含関係を通じて階層構造と部分-全体関係(すなわち、全体シーンとその部分画像)をより良く保存・モデル化することでこの問題を緩和する。しかし、既存の手法では、各部分が全体に対して異なるレベルの意味的代表性を持つことをモデル化していない。本論文では、双曲空間VLMを強化するための不確実性誘導型合成的双曲空間調整(UNcertainty-guided Compositional Hyperbolic Alignment, UNCHA)を提案する。UNCHAは、部分-全体の意味的代表性を双曲空間の不確実性を用いてモデル化する。具体的には、全体シーンに対してより代表的な部分には低い不確実性を、より代表度の低い部分には高い不確実性を割り当てる。この代表性は、不確実性に基づく重みを用いて対照学習の目的関数に組み込まれる。最後に、エントロピーに基づく項で正則化された包含損失を用いて、不確実性を較正する。提案する損失関数により、UNCHAはより正確な部分-全体の順序関係を持つ双曲空間埋め込みを学習し、画像内の基盤的な合成的構造を捉え、複雑な複数オブジェクトシーンの理解を改善する。UNCHAは、ゼロショット分類、検索、マルチラベル分類のベンチマークにおいて、最先端の性能を達成する。コードおよびモデルは https://github.com/jeeit17/UNCHA.git で公開されている。

27

ABot-PhysWorld:物理整合によるロボットマニピュレーションのためのインタラクティブ世界基盤モデル
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24
ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
2
0

映像ベースの世界モデルは身体性シミュレーションと計画の強力なパラダイムを提供するが、既存の最先端モデルは、物理法則を無視した汎用視覚データへの学習と尤度ベースの目的関数により、物体貫通や反重力運動など物理的に不可能な操作を生成しがちである。本論文では、視覚的にリアルで物理的に妥当、かつ動作制御可能な映像を生成する140億パラメータのDiffusion Transformerモデル「ABot-PhysWorld」を提案する。物理法則を考慮した注釈を付与した300万の操作クリップから構成される精選データセットに基づき、視覚品質を保ちつつ非物理的挙動を抑制するため、分離型識別器を備えた新規のDPOベース学習後フレームワークを採用する。並列コンテキストブロックにより、異なる身体構造間での精密な空間動作注入を実現する。一般化性能をより適切に評価するため、実世界と合成の未見過ロボット-タスク-環境組合せを統合した初の学習データ非依存型身体性ゼロショットベンチマーク「EZSbench」を導入する。これは物理的真实性と動作整合性を別個に評価する分離型プロトコルを採用する。ABot-PhysWorldはPBenchとEZSbenchにおいて新たな最先端性能を達成し、物理的妥当性と軌道一貫性でVeo 3.1およびSora v2 Proを凌駕した。EZSbenchは身体性映像生成の標準化評価促進のため公開予定である。

28

推論か修辞か?大規模言語モデルにおける道徳的推論説明の実証分析
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23
ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain
2
1

大規模言語モデルは道徳的に推論しているのか、それとも単にそのように聞こえるだけなのか?本研究では、道徳的ジレンマに対するLLMの応答が、コールバーグの道徳性発達段階における真の発達的推移を示すのか、あるいは、アライメント調整による訓練が、基礎となる発達軌道を伴わずに、表面的に成熟した道徳判断に似た推論的な出力を生成しているのかを調査する。3つの判定モデルで検証されたLLM-as-judge採点パイプラインを用いて、様々なアーキテクチャ、パラメータ規模、訓練方法にわたる13のLLMから得られた600以上の応答を6つの古典的道徳的ジレンマに分類し、10の補完的分析を行って、結果として得られたパターンの性質と内的整合性を特徴づける。我々の結果は顕著な逆転現象を明らかにした:応答は、モデルサイズ、アーキテクチャ、またはプロンプト戦略に関わらず、圧倒的に脱慣習的水準(第5~6段階)に対応しており、第4段階が支配的である人間の発達規範とは実質的に逆のパターンを示した。最も顕著なのは、一部のモデルが道徳的乖離を示した点である:表明された道徳的正当化と行動選択の間の体系的な不一致であり、これは規模やプロンプト戦略を超えて持続する論理的矛盾の一形態であり、修辞的な洗練度とは独立した直接的な推論整合性の失敗を表す。モデル規模は統計的に有意ではあるが実用的には小さな効果しか持たず、訓練タイプには有意な独立した主効果はなく、モデルはほとんどロボット的な、ジレンマを超えた一貫性を示し、意味的に異なる道徳的問題に対して論理的に区別不能な応答を生成した。我々は、これらのパターンが、アライメント訓練を通じて、それらの修辞的慣習が表現することを意図された基礎的な発達軌道なしに、成熟した道徳的推論の修辞的慣習を獲得するという、道徳的腹話術の証拠を構成すると考える。

29

AIエージェントの規制
Regulating AI Agents

Mar 24
ByKathrin Gardhouse, Amin Oueslati, Noam Kolt
2
1

AIエージェント――限定的な人間の監督のみで複雑な目標を追求するために自律的に行動できるシステム――は主流となった。これらのシステムは現在、ソフトウェアの開発、ビジネス活動の遂行、日常的な個人のタスクの自動化に広く利用されている。AIエージェントは、代理法や契約から不法行為責任や労働法に至るまで、法律の多くの分野に関わるが、特に差し迫った課題を提起しているのは、世界的に最も影響力のあるAI規制である欧州連合(EU)のAI法(AI Act)に対する対応である。AIエージェントの開発と普及以前に公布されたEU AI法は、自律的なタスク実行における性能不全、悪意のある行為者によるエージェントの悪用リスク、AIエージェントがもたらす経済的機会への不平等なアクセスといった、この革新的技術から生じるガバナンスの課題に直面する際、重大な障壁に直面している。本稿では、規制の実体的規定と、極めて重要であるその実施を支えることを目的とした制度的枠組みの両方に焦点を当て、これらの課題に対するEU AI法の対応を体系的に分析する。本法におけるモニタリングと執行の責任分配、業界の自主規制への依存、政府リソースの水準に関する我々の分析は、従来のAIシステム向けに設計された規制枠組みがAIエージェントには不向きであることを示している。総合すると、我々の分析結果は、EU及びその他の地域の政策立案者が、次世代AI技術を効果的に統治するためには、方針を転換する必要があり、かつ早急にそうする必要があることを示唆している。

30

セッションリスクメモリ(SRM):決定論的前実行安全ゲートのための時間的認可
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22
ByFlorin Adrian Chitan
1
1

決定論的前実行安全ゲートは、個々のエージェントアクションが割り当てられた役割と互換性があるかどうかを評価する。単一アクション単位の認可においては効果的であるが、これらのシステムは構造的に、有害な意図を複数の個別準拠ステップに分解する分散型攻撃を検知できない。本論文は、ステートレスな実行ゲートを軌道レベル認証に拡張する軽量な決定論的モジュールであるSession Risk Memory(SRM)を提案する。SRMは、エージェントセッションの行動プロファイルの変化を表すコンパクトなセマンティックセントロイドを維持し、ベースライン差し引き後のゲート出力に対する指数移動平均を通じてリスク信号を累積する。SRMは基盤となるゲートと同じセマンティックベクトル表現で動作し、追加のモデルコンポーネント、学習、または確率的推論を必要としない。我々は、低速流出、段階的特権昇格、コンプライアンス逸脱シナリオを含む80セッションのマルチターンベンチマークでSRMを評価した。その結果、ILION+SRMはF1=1.0000、偽陽性率0%を達成し、ステートレスILIONのF1=0.9756、FPR5%を上回り、両システムで100%の検出率を維持した。決定的に、SRMはターンあたり250マイクロ秒未満のオーバーヘッドで全ての偽陽性を排除する。本フレームワークは、空間的認可一貫性(アクション単位で評価)と時間的認可一貫性(軌道上で評価)の概念的な区別を導入し、エージェントシステムにおけるセッションレベル安全性の原則的な基盤を提供する。

31

STEMエージェント:マルチプロトコルAIエージェントシステムのための自己適応型・ツール対応・拡張可能アーキテクチャ
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22
ByAlfred Shen, Aaron Shen
1
0

現在のAIエージェントフレームワークは、単一の相互作用プロトコル、固定化されたツール統合戦略、静的なユーザーモデルに早期に依存しており、多様な相互作用パラダイムへの展開が制限されている。これらの制約を解決するため、我々はSTEM Agent(自己適応型・ツール対応・拡張可能・マルチエージェント)を提案する。これは生物の多能性にヒントを得たモジュラー式アーキテクチャであり、未分化のエージェントコアが、特定のプロトコルハンドラ、ツールバインディング、メモリサブシステムへと分化し、それらが統合されて完全に機能するAIシステムを構成する。本フレームワークは、5つの相互運用プロトコル(A2A、AG-UI、A2UI、UCP、AP2)を単一ゲートウェイ背後に統合し、20以上の行動次元にわたってユーザー選好を継続的に学習するCaller Profilerを導入し、すべてのドメイン機能をModel Context Protocol(MCP)を通じて外部化する。さらに、反復的な相互作用パターンが細胞分化に類似した成熟ライフサイクルを経て再利用可能なエージェントスキルとして結晶化する、生物にヒントを得たスキル獲得システムを実装する。これらの機能を補完するため、メモリシステムには、持続的な相互作用下での準線形成長を目的として、エピソード剪定、意味的重複排除、パターン抽出を含む統合メカニズムが組み込まれている。包括的な413テストスイートにより、5つのアーキテクチャ層全体にわたるプロトコルハンドラの挙動とコンポーネント統合が検証され、3秒未満で完了する。

32

SHAMISA: 暗黙的構造連想の形状モデリングに基づく自己教師付きノーレファレンス画像品質評価
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14
ByMahdi Naseri, Zhou Wang
1
1

ノーリファレンス画像品質評価(NR-IQA)は、高品質な参照画像にアクセスすることなく知覚品質を推定することを目的とする。NR-IQAモデルの学習は、コストの高い人間の知覚ラベルを大量に必要とするという根本的なボトルネックに直面している。本研究では、明示的に構造化された関係性の監督を活用し、ラベルなしの劣化画像から学習する非対照的な自己教師ありフレームワーク「SHAMISA」を提案する。厳格な二値的類似性制約を課す従来手法とは異なり、SHAMISAは暗黙的構造連想を導入する。これは、合成的メタデータと内在的特徴構造から推論される、劣化を意識しコンテンツに敏感な、柔軟で制御可能な軟らかい関係として定義される。重要な革新点は、合成的劣化エンジンである。これは連続パラメータ空間から数え切れないほどの劣化ファミリーを生成し、一度に一つの劣化要因のみが変化するようにグループ化する。これにより、学習中に表現の類似性を細かく制御できる:同じ劣化パターンを持つ画像は埋め込み空間で近づけられ、一方で劣化の程度の違いは構造化された予測可能な変化を生み出す。我々はこれらの知見を、既知の劣化プロファイルと出現する構造的亲和性の両方を符号化する二重ソース関係グラフに統合し、学習プロセス全体を導く。畳み込みエンコーダはこの監督の下で学習され、その後推論用に固定され、品質予測はその特徴に対して線形回帰器によって行われる。合成的、実環境、およびクロスデータセットNR-IQAベンチマークにおける広範な実験により、SHAMISAが人間の品質注釈や対照損失を一切用いることなく、優れた全体性能と改善されたクロスデータセット一般化性およびロバスト性を達成することを実証する。

33

再構成誘導型スロットカリキュラム:ビデオオブジェクト中心学習におけるオブジェクトの過剰断片化問題への対応
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24
ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo
1
1

Video Object-Centric Learningは、生の動画を少数のオブジェクトスロットに分解することを目指すが、既存のスロットアテンションモデルは深刻な過剰分割に悩まされることが多い。これは、再構成目的関数を最小化するためにモデルが暗黙的に全てのスロットを使用することが促され、結果として単一のオブジェクトが複数の冗長なスロットで表現されるためである。我々はこの制限を、再構成誘導型スロットカリキュラム(SlotCurri)によって解決する。トレーニングは少数の粗いスロットのみで開始し、再構成誤差が高いままの領域に新しいスロットを段階的に割り当てることで、必要な場所にのみ表現能力を拡大し、最初から過剰分割を防止する。しかし、スロット拡張の過程で意味のある部分構造が出現するためには、粗いレベルでの意味論が既に良く分離されている必要がある。しかし、初期スロット数が少なくMSE目的関数を使用する場合、意味論的境界は曖昧なままである。そこで我々は、局所的なコントラストとエッジ情報を保持する構造認識損失をMSEに追加し、各スロットがその意味論的境界を鮮明化することを促進する。最後に、フレームシーケンスを順方向・逆方向にスロットを伝播させる循環推論を提案し、最初のフレームであっても時間的に一貫したオブジェクト表現を生成する。これらを組み合わせることで、SlotCurriは再構成が失敗する領域に表現能力を割り当てることでオブジェクトの過剰分割に対処し、構造的手がかりと循環推論によってさらに強化される。YouTube-VISで+6.8、MOVi-Cで+8.3という顕著なFG-ARIの向上は、SlotCurriの有効性を実証している。コードはgithub.com/wjun0830/SlotCurriで公開されている。

34

AIエージェントはデータの質問に答えられるか?データエージェントのベンチマーク
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21
ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran
0
1

企業ユーザーは、自然言語を用いてデータを問い合わせるAIエージェントへの依存度を高めている。しかし、信頼性の高いデータエージェントの構築は依然として困難である。その理由は、実世界のデータが複数の異種データベースシステムに分散していることが多く、参照の不整合や非構造化テキストに埋もれた情報が存在するためである。既存のベンチマークは、自然言語の質問をSQLクエリに変換する、またはコンテキストで提供される小さなテーブルに対する質問応答など、この問題の個々の側面にしか対応しておらず、複数のデータベースシステムにわたるデータの統合、変換、分析という完全なパイプラインを評価するものではない。このギャップを埋めるため、我々は6つの産業にわたる企業データエージェントワークロードの形成的調査に基づいたData Agent Benchmark(DAB)を提案する。DABは、12のデータセット、9つのドメイン、4つのデータベース管理システムにわたる54のクエリで構成されている。DABにおいて、最高性能のフロンティアモデル(Gemini-3-Pro)でもpass@1精度は38%に留まった。我々は5つのフロンティアLLMをベンチマークし、その失敗モードを分析し、将来のデータエージェント開発に向けた知見を抽出する。当ベンチマークと実験コードはgithub.com/ucbepic/DataAgentBenchで公開されている。

Mar 24
Mar 25
Mar 26