ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

Seedance 2.0: 世界の複雑さに対応するビデオ生成の進化
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0は、2026年2月上旬に中国で正式リリースされた新しいネイティブマルチモーダル音声-映像生成モデルです。前世代のSeedance 1.0および1.5 Proと比較して、Seedance 2.0は統一された高効率で大規模なマルチモーダル音声-映像連成生成アーキテクチャを採用しています。これにより、テキスト、画像、音声、映像の4つの入力モダリティをサポートし、業界で現在最も包括的なマルチモーダルコンテンツ参照・編集機能スイートを統合しています。映像および音声生成の全ての主要サブ次元において、実質的かつ総合的な改善を実現しています。専門家評価と一般ユーザーテストの両方において、本モデルは分野内の最先端レベルに匹敵する性能を実証しました。Seedance 2.0は4秒から15秒の音声-映像コンテンツの直接生成をサポートし、ネイティブ解像度は480pと720pです。参照用マルチモーダル入力については、現在のオープンプラットフォームでは最大3本の映像クリップ、9枚の画像、3本の音声クリップに対応しています。さらに、低遅延シナリオ向けに生成速度を向上させた高速版「Seedance 2.0 Fast」も提供しています。Seedance 2.0は基礎生成能力とマルチモーダル生成性能を大幅に改善し、エンドユーザーにとって強化された創造的体験をもたらします。

2

GameWorld: マルチモーダルゲームエージェントの標準化および検証可能な評価に向けて
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

現実世界でのインタラクションに向けた具身化されたジェネラリストとして、マルチモーダル大規模言語モデル(MLLM)エージェントは、依然として高いレイテンシ、疎なフィードバック、不可逆的なミットという課題に直面している。ビデオゲームは、豊富な視覚観察と閉ループ型インタラクションを提供し、細粒度の知覚、長期的な計画立案、精密な制御を要求する理想的なテストベッドである。しかし、これらの能力を体系的に評価することは、現在、異種混在的なアクションインターフェースとヒューリスティックな検証によって妨げられている。この目的のために、我々はブラウザ環境における汎用ゲームエージェントとしてのMLLMの標準化され検証可能な評価のために設計されたベンチマーク、GameWorldを提案する。2種類のゲームエージェントインターフェースを検討する:(i) キーボードとマウスの制御を直接出力するコンピュータ使用エージェント、および (ii) 決定論的セマンティックアクションパーシングを介してセマンティックアクション空間で行動する汎用マルチモーダルエージェントである。GameWorldは34の多様なゲームと170のタスクを含み、それぞれが結果ベースの評価のための状態検証可能な指標とペアになっている。18のモデルとインターフェースの組み合わせにおける結果は、最高性能のエージェントでさえ、ビデオゲームにおいて人間の能力には程遠いことを示唆している。ベンチマーク全体を繰り返し実行した大規模な実験は、本ベンチマークの堅牢性を実証している。一方、リアルタイムインタラクション、コンテキストメモリ感度、アクション有効性に関するさらなる研究は、ゲームエージェントが直面するさらなる課題を明らかにする。全体として、標準化され、検証可能で、再現性のある評価フレームワークを提供することにより、GameWorldはマルチモーダルゲームエージェントおよびそれ以降の研究の発展に向けた堅牢な基盤を築く。プロジェクトページは https://gameworld-bench.github.io にある。

3

RationalRewards: 推論報酬がトレーニング時とテスト時の両方で視覚生成をスケーリングする
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

視覚生成のための既存の報酬モデルの多くは、豊かな人間の判断を単一の説明不能なスコアに還元し、選好の根底にある推論を捨象してきた。本論文では、報酬モデルに採点前に明示的で多次元的な批評を生成するように教えることで、受動的評価器から能動的最適化ツールへと変換し、生成器を二つの相補的な方法で改善できることを示す。学習時には、構造化された理由付けが強化学習のための解釈可能できめ細かい報酬を提供し、推論時には「生成-批評-改良」ループが批評を具体的なプロンプト修正へと変換し、パラメータ更新なしで出力を改善する。こうした報酬モデルを高コストな理由付けアノテーションなしで学習させるため、我々はPreference-Anchored Rationalization(PARROT)を提案する。これは、アンカー生成、一貫性フィルタリング、蒸留を通じて、容易に利用可能な選好データから高品質な理由付けを復元する原理的な枠組みである。その結果得られたモデルRationalRewards(8B)は、オープンソースの報酬モデルの中で最先端の選好予測精度を達成し、Gemini-2.5-Proに匹敵する性能を示しながら、同等のベースライン比で10~20倍少ない学習データで実現した。強化学習の報酬として用いた場合、テキストから画像への生成および画像編集タスクにおいて、単一スコアの代替手法を一貫して上回る改善をもたらした。最も注目すべきは、推論時の批評・改良ループが複数のベンチマークで強化学習に基づくファインチューニングに匹敵または凌駕する結果を示したことであり、構造化された推論が既存の生成器に潜在する能力を解放し、最適でないプロンプトでは引き出せなかった性能を発揮できる可能性を示唆している。

4

SpatialEvo:決定論的幾何環境による自己進化的空間知能
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

3次元シーンに対する空間推論は、具象化AIの核心能力であるが、継続的なモデル改善は幾何学的アノテーションのコストによってボトルネックとなっている。自己進化パラダイムは有望な道筋を示すが、擬似ラベル構築におけるモデル合意への依存は、訓練がモデル自身の幾何学的誤りを修正するよりも強化してしまうという問題がある。我々は、この限界を回避する3D空間推論に特有の性質を特定した:グランドトゥルースは基礎となる幾何学の決定論的帰結であり、点群とカメラ姿勢からモデルの関与なしに正確に計算可能である。この知見に基づき、我々は決定論的幾何環境(DGE)を中核とした3D空間推論のための自己進化フレームワーク、SpatialEvoを提案する。DGEは16の空間推論タスクカテゴリを明示的な幾何検証規則の下で形式化し、未注釈の3Dシーンをゼロノイズの対話型オラクルに変換し、モデル合意を客観的物理フィードバックで置き換える。単一の共有パラメータポリシーがDGE制約の下で質問者役と解決者役の間で共進化する:質問者はシーン観測に基づく物理的に妥当な空間質問を生成し、解決者はDGE検証済みグランドトゥルースに対して正確な回答を導出する。タスク適応型スケジューラは、モデルの最弱カテゴリに訓練を内生的に集中させ、手動設計なしの動的カリキュラムを生成する。9つのベンチマークによる実験により、SpatialEvoが3Bおよび7Bスケールの両方で最高の平均スコアを達成し、空間推論ベンチマークで一貫した向上を示し、一般的な視覚理解タスクでは性能劣化がないことが実証された。

5

OccuBench: 言語世界モデルによる現実世界の専門的タスクへのAIエージェント評価
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

AIエージェントは数百の職業領域(救急部門のトリアージから原子炉安全監視、税関輸入処理まで)で専門的な業務を遂行することが期待されているが、既存のベンチマークは公開環境が存在する限られた領域でのみ評価可能である。本論文ではOccuBenchを紹介する。これは10の産業カテゴリ、65の専門領域にわたる100の現実的な職業タスクシナリオをカバーするベンチマークであり、LLM駆動のツール応答生成を通じて領域特化的環境をシミュレートするLanguage World Models(LWM)によって実現されている。当社のマルチエージェント合成パイプラインは、解決可能性の保証、較正された難易度、文書に基づく多様性を備えた評価インスタンスを自動生成する。OccuBenchはエージェントを2つの相補的次元で評価する:専門領域横断的なタスク完遂度と、制御された障害注入(明示的エラー、暗黙的データ劣化、混合障害)下での環境ロバスト性である。8モデルファミリーにわたる15の先進モデルを評価した結果、(1)単一モデルが全産業を支配するものはなく、各モデルが独自の職業能力プロファイルを持つ;(2)暗黙的障害(データ断片化、フィールド欠落)は、明示的エラー(タイムアウト、500エラー)や混合障害よりも難易度が高く、これは明瞭なエラー信号を欠き、エージェントが自律的にデータ劣化を検出する必要があるため;(3)大規模モデル、新しい世代、高い推論努力が一貫して性能向上をもたらす(GPT-5.2は最小から最大の推論努力で27.5ポイント向上);(4)強力なエージェントが必ずしも優れた環境シミュレーターとは限らない(シミュレーター品質はLWMベース評価の信頼性に重要)という知見が得られた。OccuBenchは職業的タスクにおけるAIエージェントの初の体系的な産業横断評価を提供する。

6

P(y|x)からP(y)へ:事前学習空間における強化学習の探求
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

検証可能な報酬を用いた強化学習(RLVR)は条件付き分布P(y|x)を最適化することでLLMの推論能力を大幅に強化するが、その可能性は基本モデルが持つ既存の出力分布によって根本的に制限されている。周辺分布P(y)を事前学習空間で最適化するアプローチは、推論能力を符号化し広範な探索能力を保持することでこのボトルネックを解決する。しかし従来の事前学習は静的なコーパスに依存した受動的学習であるため、分布シフトが生じ、標的型の推論強化を妨げている。本論文では、報酬駆動型のオンライン更新をP(y)に直接適用するPreRL(Pre-train Space RL)を提案する。我々は理論的・実証的にlog P(y)とlog P(y|x)の強い勾配整合性を検証し、PreRLが標準RLの有効な代替手段であることを立証する。さらに、PreRL内の負例強化(NSR)が推論の極めて効果的な駆動力となる重要なメカニズムを発見した。NSR-PreRLは誤った推論空間を迅速に刈り込みながら内省的な反射行動を促進し、推移的思考と反射的思考をそれぞれ14.89倍、6.54倍増加させる。これらの知見を活かし、推論の地平を拡大するNSR-PreRLによるモデル初期化後、細粒度最適化のために標準RLに移行する政策転生戦略「Dual Space RL(DSRL)」を提案する。大規模な実験により、DSRLが強力なベースラインを一貫して上回り、事前学習空間の刈り込みが政策を洗練された正しい推論部分空間へと効果的に導くことを実証する。

7

メモリ転移学習:コーディングエージェントにおけるドメイン間での記憶転送の仕組み
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

メモリベースの自己進化は、コーディングエージェントの有望なパラダイムとして登場している。しかし、既存のアプローチでは、メモリ活用を同種タスク領域に限定することが一般的であり、実行環境やプログラミング言語といった多様な現実世界のコーディング問題に共通する基盤的要素を活かし切れていない。この制約を解決するため、我々は異種領域からなる統一メモリプールを活用したメモリ転移学習(MTL)を検討する。具体的な実行トレースから抽象的な知見まで4種類のメモリ表現を用いて、6つのコーディングベンチマークで性能を評価した。実験結果から、ドメイン横断的なメモリが平均性能を3.7%向上させることが示され、この改善はタスク固有のコードではなく検証ルーチンなどのメタ知識の転移によって主にもたらされることが明らかになった。重要なことに、抽象化レベルが転移可能性を決定づけることが判明した。高水準の知見は汎化性が高い一方、低水準のトレースは過度に具体的であるため負の転移を引き起こしやすい。さらに、転移効果はメモリプールの規模に比例して向上し、異なるモデル間でもメモリ転移が可能であることを実証した。本研究は、メモリ活用を単一領域のサイロから拡張するための実証的な設計原則を確立するものである。プロジェクトページ: https://memorytransfer.github.io/

8

言語モデルエージェントにおける探索と活用の誤差は測定可能である
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

言語モデル(LM)エージェントは、AIコーディングから物理AIに至るまで、複雑なオープンエンドな意思決定タスクにおいてますます活用されている。こうした環境における核心的な要件は、問題空間を探索する能力と、獲得した知識を効果的に活用する能力の両立である。しかし、エージェントの内部方針にアクセスせずに観測された行動から探索と活用を体系的に区別し定量化することは、依然として困難な課題である。この問題に対処するため、実践的な具現化AIシナリオに着想を得た制御可能な環境を設計した。各環境は、部分観測可能な2Dグリッドマップと未知のタスク有向非巡回グラフ(DAG)で構成される。マップ生成はプログラムによって調整可能で、探索難易度や活用難易度を強調できる。方針非依存の評価を可能にするため、エージェントの行動から探索誤りと活用誤りを定量化する指標を設計した。様々な最先端LMエージェントを評価した結果、最新モデルでさえ本タスクに苦戦し、異なるモデルが特徴的な失敗モードを示すことが明らかになった。さらに、推論モデルがタスクをより効果的に解決すること、および最小限のハーネス設計により探索と活用の両方を大幅に改善できることを確認した。コードはhttps://github.com/jjj-madison/measurable-explore-exploitで公開している。

9

目標方策最適化
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

強化学習において、プロンプトが与えられたとき、モデルから複数の補完をサンプリングし、それらにスコアを付けます。ここで二つの疑問が生じます:どの補完が確率質量を増やすべきか、そしてその変化を実現するためにパラメータをどのように移動させるべきか?標準的な方策勾配法は両方を同時に解決するため、学習率、クリッピング、その他のオプティマイザの選択によって更新が過大または過小になる可能性があります。本論文では、これら二つの疑問を分離するTarget Policy Optimization(TPO)を提案します。スコア付けされた補完が与えられたとき、TPOは目標分布 q_i ∝ p_i^{old} exp(u_i) を構築し、交差エントロピーを用いて方策をこれに適合させます。サンプリングされた補完のロジットに関する損失勾配は p^θ - q となり、方策が目標分布に一致すると消滅します。表形式バンディット、トランスフォーマー系列タスク、および数十億パラメータ大規模言語モデルのRLVRにおいて、TPOは容易なタスクではPG、PPO、GRPO、DGと同等の性能を発揮し、スパース報酬条件下ではそれらを大幅に上回ります。コードは https://github.com/JeanKaddour/tpo で公開されています。

10

Sema Code: AIコーディングエージェントをプログラム可能で組み込み可能なインフラストラクチャへ分離
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

AIコーディングエージェントは開発者ワークフローの中心的存在となっているが、既存の全てのソリューションは、CLIやIDEプラグイン、ウェブアプリケーションといった特定の提供形態に推論能力を閉じ込めている。この制約は、企業が異種混在のエンジニアリング環境でこれらの能力を再利用しようとする際に、体系的な障壁を生み出している。この課題に対処するため、我々は埋め込み可能、プラガブル、フレームワークファーストを原則として構築されたオープンなAIコーディングフレームワーク「Sema Code」を提案する。Sema Codeは、コアエージェントエンジンを全てのクライアント層から完全に分離し、任意のランタイムがプログラム的に駆動可能なスタンドアロンのnpmライブラリとして公開する。このアーキテクチャを基盤として、我々は8つの主要なメカニズムを設計した:マルチテナントエンジン分離、安全なセッション再構築を伴うFIFO入力キューイング、適応的コンテキスト圧縮、マルチエージェント協調スケジューリング、インテリジェントなTodoベースのプロセス管理、4層の非同期権限制御、MCP、スキル、プラグインに跨る3階層のエコシステム統合、そして実行権限と観測権限が分離されたバックグラウンドタスクフレームワークである。これらのメカニズムは総合的に、複雑なエージェントエンジンを共有可能でプログラム可能なコアへと変換するというエンジニアリング上の課題に対処する。そのアーキテクチャの汎用性を示すため、同一のSema Coreエンジンが、VSCode拡張機能と、TelegramやFeishuといったプラットフォーム横断でエージェントインタラクションを統一するマルチチャネルメッセージングゲートウェイ(我々がSemaClawと命名したもの)を同時に駆動している。これらは、同一の推論カーネルを共有し、クライアント層のみが異なる、根本的に異なる二つの製品形態を表している。

11

SemaClaw:ハーネス工学による汎用個人AIエージェントへの一歩
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

2026年初頭におけるOpenClawの台頭は、数百万人のユーザーが旅行計画から多段階の調査に至るまで様々なタスクを委任し、個人用AIエージェントを日常生活に導入し始めた画期を意味する。この規模での普及は、二つの並行する発展の弧が転換点に達したことを示唆している。第一は、AIエンジニアリングにおけるパラダイムシフトである。これは、プロンプト及びコンテキストエンジニアリングから、制約のないエージェントを制御可能、監査可能、かつ本番環境で信頼性の高いシステムへと変換するために必要な完全なインフラストラクチャを設計する「ハーネスエンジニアリング」へと進化した。モデル能力が収束する中、このハーネス層がアーキテクチャ差別化の主要な場となりつつある。第二は、人間とエージェントの相互作用が、個別のタスクから、持続的かつ文脈を認識した協調関係へと進化したことである。これは、オープンで信頼性が高く拡張可能なハーネスインフラストラクチャを要求する。本論文では、ハーネスエンジニアリングを通じて汎用個人AIエージェントへの一歩を踏み出すことで、これらの変遷に対処するオープンソースのマルチエージェントアプリケーションフレームワーク「SemaClaw」を提案する。主な貢献として、DAGベースの二段階ハイブリッドエージェントチーム編成手法、PermissionBridge行動安全システム、三層コンテキスト管理アーキテクチャ、自動化された個人知識ベース構築のためのエージェント型Wikiスキルを含む。

12

自由形状:より長いバージョンからの3D再構成の精密化
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

フィードフォワード型3D再構成モデルは効率的であるが硬直的である。一度学習すると、ゼロショット推論を行い、テストシーンに適応できない。その結果、視覚的に妥当な再構成結果にも、特に遮蔽、鏡面反射、曖昧な手がかりの下で誤りが生じやすい。この問題に対処するため、我々はフィードフォワード型3D再構成モデルが3D教師データなしでテスト時に自己進化することを可能にするフレームワーク「Free Geometry」を提案する。我々の重要な洞察は、モデルがより多くの視点を入力されると、より信頼性が高く視点整合性のある再構成を生成するという点である。この特性を活用し、テストシーケンスが与えられた際に、フレームの一部をマスキングして自己教師タスクを構築する。Free Geometryは、完全観測と部分観測からの特徴表現間の視点間整合性を強化しつつ、ホールドアウトされたフレームが示すペアワイズ関係を維持する。この自己教師により、軽量なLoRA更新による高速な再較正が可能となり、データセットあたりの処理は単一GPUで2分未満である。本手法は、Depth Anything 3やVGGTを含む最先端の基盤モデルを、4つのベンチマークデータセットにわたり一貫して改善し、カメラ姿勢精度で平均3.73%、点群マップ予測で平均2.88%の向上を達成した。コードはhttps://github.com/hiteacherIamhumble/Free-Geometry で公開されている。

13

LangFlow: 言語モデリングにおける連続拡散の離散的手法との拮抗
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

連続拡散は、画像などの多くのデータモダリティにおいて、高精度で制御可能、かつ少ステップ生成の基盤となってきた。しかし、言語モデリングにおいては、従来の連続拡散言語モデル(DLM)は、データ空間の疎性と未開拓の設計空間が原因で、離散型のモデルに後れを取っていた。本研究では、このギャップを埋める LangFlow を提案する。これは埋め込み空間のDLMをブレグマン距離を介してフローマッチングと接続し、以下の三つの重要な革新と組み合わせることで、離散拡散に対抗する初の連続DLMを実現した。(1) 連続フロー型言語モデルの原理的評価のための、新しいODEベースのNLL境界を導出。(2) ノイズスケジュール設定のための情報均一性原理を提案し、これがガンベル分布に基づく学習可能なノイズスケジューラの動機付けとなる。(3) 自己条件付けを組み込むことで従来の訓練プロトコルを改訂。これは、離散拡散とは大きく異なる効果で、埋め込み空間DLMの尤度とサンプル品質の両方を向上させることを見出した。これらを統合した LangFlow は、パープレキシティ(PPL)と生成的パープレキシティ(Gen. PPL)の両方において、トップクラスの離散DLMと互角の性能を発揮し、LM1BでPPL 30.0、OpenWebTextで24.6を達成した。さらに、7つのベンチマークのうち4つにおいて、ゼロショット転移で自己回帰ベースラインを上回った。LangFlowは、連続拡散が言語モデリングの有望なパラダイムであることを示す初の明確な証拠を提供する。ホームページ: https://github.com/nealchen2003/LangFlow

14

ヒント:オンポリシー蒸留におけるトークン重要度
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

オン方針知識蒸留(OPD)は、トークンレベルの教師監督下で、学生モデル自身のロールアウトを用いて学習を行う。全てのトークン位置が同等に重要ではなく、既存のトークン重要性の見解は不完全である。我々は直接的な問いを立てる:OPDにおいて、どのトークンが最も有用な学習信号を持つのか?その答えは、有益なトークンが2つの領域から生じるというものである:学生モデルのエントロピーが高い位置と、学生モデルのエントロピーが低くかつ教師-学生間のダイバージェンスが高い(学生モデルが過信して誤っている)位置である。 実証的に、学生エントロピーは強力な一次代理指標である:エントロピーに基づくサンプリングで上位50%のトークンを残すことで、全トークン学習と同等かそれを上回る性能を達成しつつ、ピークメモリ使用量を最大47%削減する。しかし、エントロピーだけでは第二の重要な領域を見逃す。低エントロピー・高ダイバージェンストークンを単離すると、全トークンの10%未満での学習がほぼ全トークンベースラインに匹敵し、過信トークンがエントロピー単独の規則ではほぼ検出不能であるにも関わらず、高密度の修正信号を運ぶことを示す。 我々はこれらの知見を、学生エントロピーと教師-学生ダイバージェンスの2軸からなる分類法「TIP(オン方針蒸留におけるトークン重要性)」で体系化し、エントロピーが有用でありながら構造的に不完全である理論的説明を与える。この見解は、不確実性と不一致を組み合わせたタイプ認識型トークン選択規則を動機づける。我々はこの図式を、Qwen3、Llama、Qwen2.5に跨る3組の教師-学生ペアで、MATH-500およびAIME 2024/2025、さらに長期的なエージェンシック計画のためのDeepPlanningベンチマークにおいて検証する。後者では、全トークンの20%未満のQ3トークン(低エントロピー・高ダイバージェンス)のみでの学習が、全トークンOPDを凌駕する。本実験は、限られたGPU予算下での大規模モデルのメモリ効率的な蒸留をサポートするOPDリポジトリ(https://github.com/HJSang/OPSD_OnPolicyDistillation)を拡張して実装された。

15

UI-Zoomer: GUIグラウンデングのための不確実性駆動型適応ズームイン
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

GUIグラウンディングは、自然言語クエリを与えられたスクリーンショットからインターフェース要素を位置特定する技術であるが、小さなアイコンや高密度なレイアウトでは依然として課題が多い。テスト時のズームイン手法は、領域を切り出して高解像度で再推論を行うことで位置特定精度を向上させるが、固定サイズのクロップを全てのインスタンスに一律に適用するため、モデルが個々のケースで実際に不確実性を抱えているかどうかを考慮しない。本研究では、ズームインのトリガーとスケールの両方を予測不確実性の定量化問題として扱う、訓練不要の適応的ズームインフレームワーク「UI-Zoomer」を提案する。信頼度感知ゲートは、確率的候補間の空間的合意とトークンレベルの生成信頼度を統合し、位置特定が不確実な場合にのみ選択的にズームインをトリガーする。トリガー時には、不確実性駆動型クロップサイズ決定モジュールが予測分散をサンプル間の位置広がりとサンプル内のバウンディングボックス範囲に分解し、全分散の法則を通じてインスタンスごとのクロップ半径を導出する。ScreenSpot-Pro、UI-Vision、ScreenSpot-v2を用いた大規模実験により、複数のモデルアーキテクチャにわたって強力なベースラインを一貫して上回り、それぞれ最大+13.4%、+10.3%、+4.2%の精度向上を達成した。追加の訓練は一切必要としない。

16

TREX:エージェント駆動型ツリーベース探索によるLLMファインチューニングの自動化
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

大規模言語モデル(LLM)はAI研究エージェントに個別の科学的タスクを実行する能力を与えたが、LLM学習のような現実世界の複雑なワークフローを自動化することは依然として大きな課題である。本論文では、LLM学習の全ライフサイクルを自動化するマルチエージェントシステム「TREX」を提案する。本システムは、2つのコアモジュール(研究者と実行者)間の協調をオーケストレーションすることで、要件分析、オープンドメインの文献・データ調査、学習戦略の策定、データレシピの準備、モデルの学習と評価をシームレスに実行する。複数回の実験プロセスは探索木としてモデル化され、システムは探索経路の効率的な計画立案、過去結果の再利用、反復試行からの高水準の知見の抽出を可能にする。自動化されたLLM学習の能力を評価するため、基礎的なモデル能力の最適化から特定領域タスクの性能向上まで、現実シナリオに基づく10のタスクから構成されるベンチマーク「FT-Bench」を構築した。実験結果から、TREXエージェントが対象タスクにおいてモデル性能を一貫して最適化できることが示された。

17

ReconPhys: 単一映像からの外観と物理属性の再構築
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

物理的に妥当な非剛体オブジェクトの再構成は、依然として重要な課題である。既存手法では、微分可能レンダリングを活用したシーン毎の最適化により形状と動力学を復元するが、高コストな調整や手動アノテーションを必要とし、実用性と一般性が制限される。この問題に対処するため、我々は単眼ビデオから物理属性推定と3Dガウススプラッティング再構成を同時に学習する初のフォワードフレームワークReconPhysを提案する。本手法は、教師なし戦略で学習するデュアルブランチ構造を採用し、物理パラメータの正解データを不要とする。ビデオ系列を入力すると、ReconPhysは形状、外観、物理属性を同時に推論する。大規模合成データセットによる実験では、将来予測において従来の最適化ベースライン手法の13.27 PSNRに対し21.64を達成し、チャンファー距離を0.349から0.004に改善する優れた性能を実証した。決定的に、既存手法が数時間を要するのに対し、ReconPhysは1秒未満の高速推論を可能にし、ロボティクスやグラフィックス向けシミュレーション対応アセットの迅速な生成を促進する。

18

MERRIN: 雑音の多いウェブ環境におけるマルチモーダル証跡検索と推論のベンチマーク
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

検索クエリの未詳細化かつマルチホップ的な性質、および実世界のウェブ検索結果が持つマルチモーダル性、異種混在性、しばしば矛盾を含む性質に動機づけられ、本論文ではMERRINを提案する。MERRINは、ノイズの多いウェブ環境下での検索拡張エージェントを評価するための人手注釈ベンチマークである。これは、AIエージェントが関連するモダリティを特定し、マルチモーダルな証拠を検索し、ノイズの多いウェブ情報源に対してマルチホップ推論を実行する能力を測定する。MERRINは以下の3点で従来研究と異なる。(1) 明示的なモダリティの手がかりを含まない自然言語クエリを使用する、(2) ビデオやオーディオなど未開拓のモダリティを組み込む、(3) ウェブ検索において、複雑でしばしばノイズが多い、または矛盾するマルチモーダルな証拠の検索を要求する。我々は、強力なクローズドソースモデル(GPT-5.4-mini、Gemini 3/3.1 Flash/Proなど)およびオープンウェイトモデル(Qwen3-4B/30B/235B)を含む10モデルを搭載した多様な検索エージェントを、3つの検索設定(検索無し、ネイティブ検索、エージェント的検索)で評価した。結果、MERRINが非常に困難な課題であることが示された:全エージェントの平均正解率は22.3%であり、最高性能のエージェントでも40.1%に留まった。さらに、Gemini Deep Researchのような強力なエージェントは高い性能を達成するものの、過剰な探索により効果は限定的であることが観察された。これらはより多くのステップを踏み、より多くのツールを使用するが、矛盾した情報や部分的な関連情報に注意を散らされ、誤った答えを導くことが多い。人間と比較して、これらのエージェントはより多くのリソースを消費するにも関わらず精度は低く、その主な原因は非効率な情報源選択とテキストモダリティへの過度な依存にある。これらの知見は、ノイズの多いウェブ環境下で多様なモダリティにわたる頑健な検索と推論が可能な検索エージェントの必要性を浮き彫りにしており、MERRINがそのような能力を評価する貴重なテストベッドとなることを示している。

19

物語駆動型論文発表資料生成システムArcDeck
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

本論文では、論文からスライドへの生成を構造化されたナラティブ再構築タスクとして定式化するマルチエージェントフレームワーク「ArcDeck」を提案する。既存手法が生のテキストを直接要約してスライド化するのに対し、ArcDeckは原論文の論理的流れを明示的にモデル化する。まず入力を解析して談話構造木を構築し、グローバルコミットメント文書を確立することで、高次元の意図を保持する。これらの構造的事前情報は、反復的なマルチエージェント精緻化プロセスを導き、専門化されたエージェント群が最終的な視覚的レイアウト・デザインのレンダリング前に、プレゼンテーションのアウトラインを批判的検討と修正を繰り返す。評価のために、学術論文とスライドのペアから成る新たに構築したベンチマーク「ArcBench」も導入した。実験結果から、明示的な談話モデリングと役割特化型エージェント協調の組み合わせが、生成されるプレゼンテーションのナラティブの流れと論理的整合性を大幅に改善することが示された。

20

自己蒸留ゼロ: 自己修正が二値報酬を密な教師信号に変える
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

現在の検証可能な設定における学習後手法は、主に2つのカテゴリに分類される。強化学習(RLVR)は二値報酬に依存し、広範な適用性と強力な性能を有するが、学習中に疎な監督しか提供しない。蒸留は、通常外部教師や高品質なデモンストレーションから得られる、密なトークンレベルの監督を提供する。しかし、このような監督データの収集はコストがかかるか、利用不可能な場合がある。本研究では、RLよりも大幅に訓練サンプル効率が高く、外部教師や高品質なデモンストレーションを必要としないSelf-Distillation Zero(SD-Zero)を提案する。SD-Zeroは単一のモデルに二つの役割を担わせる:初期応答を生成するGeneratorと、その応答と二値報酬を条件として改善された応答を生成するReviserである。その後、オン方策自己蒸留を行い、Reviserのトークン分布(Generatorの応答とその報酬を条件としたもの)を監督信号として用いて、ReviserをGeneratorに蒸留する。実質的に、SD-Zeroはモデルが二値報酬を密なトークンレベルの自己監督に変換するように訓練する。Qwen3-4B-InstructとOlmo-3-7B-Instructを用いた数学およびコード推論ベンチマークにおいて、SD-Zeroはベースモデルよりも少なくとも10%性能を向上させ、同一の問題セットと訓練サンプル予算下で、Rejection Fine-Tuning (RFT)、GRPO、Self-Distillation Fine-Tuning (SDFT)といった強力なベースラインを上回った。詳細なアブレーション研究により、提案アルゴリズムの2つの新規特性が明らかになった:(a) トークンレベル自己局在化:Reviserが報酬に基づいてGeneratorの応答内で修正が必要なキートークンを特定できること、(b) 反復的自己進化:回答を修正する能力の向上が、定期的な教師同期により生成性能へと蒸留されうることである。

21

人間活動に起因する地域適応を実現するマルチモーダル視覚言語モデル
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

視覚言語(VL)分野は、複数言語および複数領域にわたる視覚情報とテキスト情報の統合において目覚ましい成功を収めているが、視覚言語システムにおける人間中心的なアラインメントを評価する専用の枠組みは依然として存在しない。本論文はこの課題に対処するため、2つの貢献を行う。第一に、**人間圏地域適応(Anthropogenic Regional Adaptation)** という新たなパラダイムを提案する。これは、グローバルな汎化能力の維持を確保しつつ、特定の地域文脈へのモデルの関連性を最適化することを目的とする。第二に、地域データフィルタリングとモデルマージを利用した、簡潔でありながら効果的な適応手法 **GG-EZ(Geographical-generalization-made-easy)** を提示する。大規模視覚言語モデル、テキストto画像拡散モデル、視覚言語埋め込みモデルという3つのVLアーキテクチャにおける包括的実験と、東南アジア(SEA)地域適応のケーススタディを通じて、人間圏地域適応の重要性とGG-EZの有効性を実証する。SEA全域における文化的関連性指標で5~15%の向上を示しつつ、グローバル性能の98%以上を維持、場合によってはそれを上回る結果を得た。我々の知見は、人間圏地域アラインメントを、多様な地域におけるマルチモーダル視覚言語モデルの適用性に向けた基礎的パラダイムとして確立し、グローバルな汎化を保持しながら地域的な価値アラインメントを最適化する、簡潔かつ効果的なベースライン手法を示すものである。

22

UI-Copilot: ツール統合型ポリシー最適化による長期的GUI自動化の推進
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

MLLMベースのGUIエージェントは、複雑なユーザーインターフェース操作タスクにおいて優れた能力を発揮することが実証されている。しかし、長時間にわたるシナリオでは、これらのエージェントが本来の能力を超えるタスクを負わされることで、メモリの劣化、進捗混乱、数値的幻覚といった課題に直面し、依然として困難が伴う。これらの課題に対処するため、本論文ではUI-Copilotを提案する。これは、GUIエージェントがタスク実行に集中し、軽量なコパイロットが必要に応じてメモリ検索と数値計算を支援する協調フレームワークである。我々は、永続的な観察情報と一時的な実行コンテキストを分離するメモリ分離を導入し、ポリシーエージェントがタスク要求に基づいてRetrieverまたはCalculatorとしてコパイロットを選択的に呼び出すように学習させる。効果的なツール呼び出し学習を実現するため、ツール選択を単一ターン予測で、タスク実行を方策オン型の多ターンロールアウトで別々に最適化するTool-Integrated Policy Optimization(TIPO)を提案する。実験結果では、UI-Copilot-7Bが挑戦的なMemGUI-Benchにおいて、GUI-Owl-7BやUI-TARS-1.5-7Bなどの強力な7B規模GUIエージェントを上回り、最先端の性能を達成した。さらに、UI-Copilot-7BはAndroidWorldにおいてベースモデルであるQwenと比較して17.1%の絶対的な性能向上を実現し、実世界のGUIタスクに対するUI-Copilotの強力な汎化性能を明らかにした。

23

SkVM: あらゆる環境で効率的に実行するためのスキルコンパイル
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

LLMエージェントは、再利用可能な構成単位としてのスキルをますます採用している。スキルは様々なエージェントプラットフォーム間で共有されるが、現在のシステムはスキルを生のコンテキストとして扱うため、同じスキルが異なるエージェント間で一貫しない動作を示す。この脆弱性はスキルの移植性と実行効率を損なう。 この課題に対処するため、我々は118,000のスキルを分析し、従来のコンパイラ設計から着想を得た。スキルをコードとして、LLMを異種プロセッサとして扱う。移植性を実現可能にするため、スキルの要求事項を一連のプリミティブ能力に分解し、各モデルとハーネスの組み合わせがそれらをどの程度サポートするかを測定する。これらの能力プロファイルに基づき、我々は移植性と効率的なスキル実行のために設計されたコンパイル及びランタイムシステムSkVMを提案する。コンパイル時には、SkVMは能力ベースのコンパイル、環境バインディング、並行性抽出を実行する。ランタイム時には、SkVMは性能最適化のためにJITコード固化と適応的再コンパイルを適用する。 様々な規模の8つのLLMと3つのエージェントハーネス、SkillsBenchおよび代表的なスキルタスクを用いてSkVMを評価した。結果は、SkVMが異なるモデルと環境にわたってタスク完了率を大幅に改善し、トークン消費を最大40%削減することを示す。性能面では、SkVMは強化された並列処理により最大3.2倍の高速化を達成し、コード固化により19〜50倍のレイテンシ削減を実現する。

24

AIコーディングエージェントは人間のようにログを記録するか?実証研究
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

ソフトウェアのロギングは、複雑なシステムの維持とデバッグに不可欠であるが、AIコーディングエージェントがこの非機能要件をどのように扱うかは未だ明らかでない。従来の研究では人間のロギング慣行が特徴付けられているが、AIコーディングエージェントの挙動や、それを制御するための自然言語指示の有効性は未検討である。このギャップを埋めるため、我々は81のオープンソースリポジトリから4,550件のエージェントによるプルリクエストを実証研究した。エージェントのロギングパターンを人間のベースラインと比較し、明示的なロギング指示の影響を分析した。その結果、エージェントは58.4%のリポジトリで人間よりもロギング変更頻度が低いものの、変更を行う場合はより高いログ密度を示すことがわかった。さらに、明示的なロギング指示は稀(4.7%)であり、かつ無効であった。エージェントは建設的な要求に対して67%の確率で非遵守だった。最後に、生成後のログ修正の72.5%を人間が行っており、明示的なレビューフィードバックなしでロギングや可観測性の問題を修正する「沈黙の清掃係」として機能していることを観察した。これらの発見は、自然言語指示における二重の失敗(すなわち、ロギング指示の不足とエージェントの低い遵守率)を示しており、一貫したロギング慣行を確保するためには決定論的ガードレールが必要であることを示唆している。

25

対数エンコーディングによる潜在空間アライメントに基づくHDR映像生成
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

高ダイナミックレンジ(HDR)画像は、シーンの放射輝度を豊かかつ忠実に再現するが、生成モデルが学習する境界付けされ知覚的に圧縮されたデータとの不一致により、生成モデルにとって依然として課題となっている。自然な解決策はHDRのための新たな表現を学習することであるが、これは追加の複雑さとデータ要件を導入する。本研究では、事前学習済み生成モデルが既に獲得している強力な視覚的事前分布を活用することで、HDR生成がはるかに簡潔に達成可能であることを示す。シネマティックパイプラインで広く用いられる対数符号化が、HDR画像をこれらのモデルの潜在空間と自然に整合する分布に写像し、エンコーダの再学習なしで軽量なファインチューニングによる直接適応を可能にすることを観察した。入力で直接観察できない詳細を回復するため、カメラを模倣した劣化に基づく学習戦略をさらに導入し、モデルが学習済み事前分布から欠落した高ダイナミックレンジコンテンツを推論することを促進する。これらの知見を組み合わせることで、最小限の適応で事前学習済みビデオモデルを用いた高品質なHDRビデオ生成を実証し、多様なシーンと困難な照明条件において優れた結果を達成する。我々の結果は、HDRが根本的に異なる画像形成体制を表現するにも関わらず、表現が学習済み事前分布と整合するように選択されれば、生成モデルを再設計することなく効果的に扱えることを示唆する。

26

ストリーミング3D再構成のための幾何学的コンテキストトランスフォーマー
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

ストリーミング3D再構成は、ビデオストリームからカメラ姿勢や点群などの3次元情報を復元することを目的としており、幾何学的精度、時間的一貫性、計算効率が求められる。本研究では、SLAM(Simultaneous位置推定と地図構築)の原理に基づき、幾何学文脈トランスフォーマー(GCT)アーキテクチャを基盤としたストリーミングデータからのシーン再構成のためのfeed-forward型3D基盤モデル「LingBot-Map」を提案する。LingBot-Mapの特徴は、座標の接地、密な幾何学的手がかり、長距離ドリフト補正をそれぞれ扱うため、アンカー文脈、姿勢参照ウィンドウ、軌跡メモリを統合した注意機構を精巧に設計した点にある。この設計により、ストリーミング状態をコンパクトに保ちつつ豊富な幾何学的文脈を保持し、10,000フレームを超える長シーケンスにおいて518×378解像度入力で約20FPSの安定かつ効率的な推論を実現する。様々なベンチマークによる広範な評価により、本手法が既存のストリーミング手法及び反復最適化ベースの手法と比較して優れた性能を達成することを示す。

27

ROSE: 検索指向型セグメンテーション強化
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

既存のマルチモーダル大規模言語モデル(MLLM)に基づくセグメンテーション手法(LISAなど)は、最新の知識を組み込むことができないため、新規出現エンティティの処理に課題を抱えている。この課題に対処するため、我々は新規出現セグメンテーションタスク(NEST)を提案する。NESTは以下の2種類のエンティティのセグメンテーションに焦点を当てる:(i)学習データに存在しないためMLLMが認識できない新規エンティティ、(ii)モデルの知識内には存在するが、正確な認識のために最新の外部情報を必要とする出現エンティティである。NESTの研究を支援するため、ニュース関連データサンプルを自動生成するパイプラインを用いてNESTベンチマークを構築した。さらに、任意のMLLMベースのセグメンテーションモデルを拡張可能なプラグアンドプレイフレームワークであるROSE(Retrieval-Oriented Segmentation Enhancement)を提案する。ROSEは4つの主要コンポーネントで構成される。まず、ユーザー提供のマルチモーダル入力を用いてリアルタイムのウェブ情報を取得するインターネット検索拡張生成モジュールを導入する。次に、テキストプロンプト拡張器が最新情報と豊富な背景知識をモデルに付与し、出現エンティティに対するモデルの認識能力を向上させる。さらに、視覚プロンプト拡張器は、インターネットから取得した画像を活用することで、MLLMが新規エンティティに曝露されていない問題を補完する。効率性を維持するため、ユーザー入力に基づいて検索機構の起動を智能的に判断するWebSenseモジュールを導入する。実験結果により、ROSEがNESTベンチマークにおいて性能を大幅に向上させ、強力なGemini-2.0 Flashベースの検索ベースラインをgIoUで19.2ポイント上回ることを実証した。

28

無限科学ジム:科学的分析のための無限生成ベンチマーク
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

大規模言語モデルは科学アシスタントとして台頭しつつあるが、経験的データから推論する能力の評価は依然として課題である。公表された研究や人間の注釈に基づくベンチマークは、出版バイアス、既知知識バイアス、ラベルノイズ、そして多大なストレージ要件を引き継いでいる。本論文では、手続き的に生成された科学リポジトリのベンチマークであるInfiniteScienceGymを、検証可能な質問応答タスクと組み合わせて提案する。シミュレータは、シードから、現実的なディレクトリ構造、ファイル、表形式データを含む自己完結型リポジトリを決定論的に生成し、特権的なQAジェネレータが、正確な正解を持つ回答可能な質問と回答不能な質問の両方を生成する。これにより、大規模な静的コーパスを配布することなく、制御された環境下で、証拠に基づく推論、回答保留、ツールを介した分析を評価することが可能となる。InfiniteScienceGymは、公表データセットのみでは評価が困難な盲点や失敗モードに焦点を当てることで、現実の科学ベンチマークを補完する。プロプライエタリモデルとオープンウェイトモデルの双方を評価した結果、全体の精度が45%を超えるモデルはなく、回答不能な質問の認識が主要な弱点であり、より強力なモデルは単により多くのトークンを消費するのではなく、ツールをより効果的に使用する傾向があることが明らかになった。

29

実世界の脅威下におけるモバイルGUIエージェント:我々は目標を達成したのか?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

近年、大規模言語モデル(LLM)を基盤とするモバイルGUIエージェントが急速に発展し、自然言語指示に基づいて多様なデバイス制御タスクを自律的に実行できるようになってきている。標準ベンチマークにおけるこれらのエージェントの精度向上は、大規模な実世界展開への期待を高めており、すでにいくつかの商用エージェントが初期採用者によってリリース・使用されている。しかし、日常のデバイスにシステム構築要素として統合されたGUIエージェントに対して、我々は本当に準備ができているのだろうか。我々は、エージェントが実世界の脅威下で性能を維持できるかを検証する、重要な導入前評価が欠けていると主張する。具体的には、異なるテスト間の環境一貫性を保つために単純な静的なアプリコンテンツに基づかざるを得ない既存の一般的なベンチマークとは異なり、実世界のアプリは、広告メール、ユーザー生成の投稿やメディアなど、信頼できない第三者からのコンテンツで満ちている。……この目的のために、我々は既存アプリケーション内で柔軟かつ標的型のコンテンツ変更を可能にする、スケーラブルなアプリコンテンツ計装フレームワークを提案する。このフレームワークを活用し、動的タスク実行環境と、困難なGUI状態から構成される静的データセットの両方を含むテストスイートを構築した。動的環境は122の再現可能なタスクを含み、静的データセットは商用アプリから構築された3,000以上のシナリオで構成される。オープンソースおよび商用のGUIエージェントに対して実験を行った。結果は、調査対象の全てのエージェントが第三者コンテンツにより性能が大幅に低下し得ることを明らかにし、動的環境と静的環境においてそれぞれ平均42.0%、36.1%の誤誘導率を示した。本フレームワークとベンチマークは https://agenthazard.github.io で公開されている。

30

言語モデルは何を、いつ学ぶのか?暗黙のカリキュラム仮説
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

大規模言語モデル(LLM)は非常に複雑なタスクを遂行できるが、その能力が事前学習中にどのように出現するかの微細な詳細は、未だ十分に解明されていない。検証損失におけるスケーリング則は、計算資源の増加に伴うモデルの改善度合いを示すが、どのような技能がどの順序で獲得されるかは教えてくれない。この問題を解決するため、我々は「暗黙的カリキュラム仮説」を提案する:事前学習は、モデルやデータ混合を超えて、合成的かつ予測可能なカリキュラムに従って進行する、という仮説である。我々はこれを検証するため、検索、形態的変換、共参照、論理的推論、数学にわたる単純で合成可能なタスク群を設計した。これらのタスクを用いて、410Mから13Bパラメータに及ぶ4つのモデルファミリーにわたって、能力の出現ポイントを追跡した。その結果、モデルが一定の精度閾値に達する時期の出現順序は驚くほど一貫しており(45のモデルペア間でρ=0.81)、複合タスクはその構成要素タスクの後に出現することが最も多いことがわかった。さらに、この構造はモデルの表現内に符号化されていることも明らかになった:機能ベクトル表現が類似するタスクは、学習においても類似した軌跡を辿る傾向がある。我々のタスクセットから導出された表現空間を用いることで、事前学習の過程全体を通じて、未評価の単純な合成的タスクの学習軌跡を効果的に予測できる(モデル間でR^2 = 0.68-0.84)。これらの結果を総合すると、事前学習は損失曲線が示す以上に構造化されていることが示唆される。すなわち、技能は合成的な順序で出現し、その順序はモデル間で一貫しており、モデルの内部状態から読み取ることが可能なのである。

Apr 15
Apr 16
Apr 17