AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Kling-Omni 技術レポート
Kling-Omni Technical Report

Dec 18

ByKling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu

122

我々はKling-Omniを提案する。これはマルチモーダルな視覚言語入力から直接高精細な映像を合成する汎用生成フレームワークである。エンドツーエンドの視点を採用したKling-Omniは、多様な映像生成・編集・知的推論タスク間の機能的分断を架橋し、それらを統合的なシステムとして統合する。個別のパイプラインアプローチとは異なり、Kling-Omniはテキスト指示、参照画像、映像コンテキストなど多様なユーザー入力をサポートし、それらを統一的なマルチモーダル表現に処理することで、映画品質かつ高度に知的な映像コンテンツ制作を実現する。これらの機能を支えるため、我々はマルチモーダル映像制作の基盤となる包括的なデータシステムを構築した。本フレームワークは、効率的な大規模事前学習戦略と推論のためのインフラ最適化によってさらに強化されている。包括的評価により、Kling-Omniが文脈内生成、推論に基づく編集、マルチモーダル指示の追従において卓越した能力を発揮することが明らかとなった。単なるコンテンツ制作ツールを超えて、Kling-Omniは動的で複雑な世界を認識・推論・生成・相互作用できるマルチモーダル世界シミュレーターに向けた画期的な進展であると我々は考える。

エージェント的AIの適応
Adaptation of Agentic AI

Dec 18

ByPengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

最先端のエージェント型AIシステムは、計画立案、推論、外部ツールとの連携を可能に適応された基盤モデルを基盤として構築されている。これらのシステムが能力と適用範囲を拡大するにつれ、適応は性能、信頼性、一般化を向上させる中心的なメカニズムとなっている。本論文では、急速に拡大する研究領域を、エージェント適応とツール適応の両方を包含する体系的フレームワークへと統合する。さらに、これらを「ツール実行シグナル型」と「エージェント出力シグナル型」のエージェント適応、ならびに「エージェント非依存型」と「エージェント監督型」のツール適応に分解する。本フレームワークが、エージェント型AIにおける適応戦略の設計空間を明確化し、トレードオフを明示し、システム設計時に戦略を選択または切り替える実践的指針を提供することを示す。次に、各カテゴリにおける代表的手法を検討し、その強みと限界を分析し、主要な未解決課題と将来の機会を提示する。全体として、本論文は、より高機能で効率的かつ信頼性の高いエージェント型AIシステムの構築を目指す研究者と実務家に対して、概念的基盤と実践的なロードマップを提供することを目的とする。

LLaDA2.0：拡散言語モデルを1000億パラメータにスケールアップ
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

ByTiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang

本論文では、LLaDA2.0を提案する。これは、オートリグレッシブ（AR）モデルからの体系的な変換により、合計100Bパラメータまでスケールアップする離散拡散大規模言語モデル（dLLM）のタプルであり、フロンティア規模での展開に向けた新たなパラダイムを確立するものである。LLaDA2.0は、コストのかかるスクラッチからの学習ではなく、知識継承、段階的適応、効率性を考慮した設計原則を堅持し、新規の3段階ブロックレベルWSDベース学習スキーム（ブロック拡散におけるブロックサイズの段階的増加（ウォームアップ）、大規模フルシーケンス拡散（安定化）、コンパクトサイズブロック拡散への回帰（減衰））を通じて、事前学習済みARモデルをdLLMにシームレスに変換する。SFTとDPOによる学習後アラインメントと併せ、実用展開に最適化された2つの命令チューニング済みMixture-of-Experts（MoE）バリアントであるLLaDA2.0-mini（16B）とLLaDA2.0-flash（100B）を獲得した。並列デコードの利点を保持することで、これらのモデルはフロンティア規模において優れた性能と効率性を実現する。両モデルはオープンソース化された。

次埋め込み予測による強力な視覚学習
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

自然言語における生成的事前学習の成功に触発され、我々は同じ原理が強力な自己教師あり視覚学習器を生み出しうるかどうかを問う。下流タスク利用のための特徴量を出力するようにモデルを訓練する代わりに、予測タスクを直接実行する埋め込みを生成するように訓練する。本研究は、表現の学習からモデルの学習へのこうした転換を探求する。具体的には、モデルは因果的マスキングと勾配停止を用いて、過去のパッチ埋め込みを条件に将来のパッチ埋め込みを予測することを学習する。我々はこれをNext-Embedding Predictive Autoregression (NEPA) と呼ぶ。ImageNet-1kでNext埋め込み予測を唯一の学習目的として事前学習した単純なTransformerが有効であることを実証する - ピクセル再構成、離散トークン、対照損失、タスク特化ヘッドは一切不要である。この定式化は、追加の設計的複雑さを必要とせず、アーキテクチャの単純性と拡張性を保持する。NEPAは様々なタスクで強力な結果を達成し、ViT-BとViT-Lバックボーンでファインチューニング後、ImageNet-1Kにおいて83.8%、85.3%のtop-1精度を達成し、ADE20Kでのセマンティックセグメンテーションに効果的に転移する。埋め込みからの生成的事前学習が、視覚的自己教師あり学習に対する単純で拡張性があり、潜在的にモダリティ非依存の代替手法を提供すると我々は考える。

StereoPilot: 生成的アプローチによる統合的かつ効率的なステレオ変換の学習
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

VRヘッドセットや3D映画など立体ディスプレイの急速な普及に伴い、高品質なステレオ動画コンテンツへの需要が高まっています。しかし、3D動画の制作は依然としてコストと複雑さが課題であり、従来の多段階「深度推定-ワーピング-修復」（DWI）パイプラインによる単眼画像からの自動変換には限界があります。この手法は誤差伝播、深度の曖昧さ、平行法と交差法のステレオ形式間の不一致といった問題を抱えています。これらの課題に対処するため、我々は両ステレオ形式を網羅した初の大規模統合データセットUniStereoを導入し、公平なベンチマークと堅牢なモデル学習を可能にします。このデータセットを基盤として、明示的な深度マップや反復的な拡散サンプリングに依存せずに目標視点を直接合成する効率的な順伝播モデルStereoPilotを提案します。学習可能なドメイン切替器と循環一貫性損失を備えたStereoPilotは、異なるステレオ形式にシームレスに適応し、優れた一貫性を実現します。大規模な実験により、StereoPilotが視覚的品質と計算効率の両面で既存の最先端手法を大幅に上回ることを実証しました。プロジェクトページ：https://hit-perfect.github.io/StereoPilot/

Seedance 1.5 pro: ネイティブな音声-映像連成生成基盤モデル
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

ByHeyi Chen, Siyan Chen, Xin Chen, Yanfei Chen, Ying Chen, Zhuo Chen, Feng Cheng, Tianheng Cheng, Xinqi Cheng, Xuyan Chi, Jian Cong, Jing Cui, Qinpeng Cui, Qide Dong, Junliang Fan, Jing Fang, Zetao Fang, Chengjian Feng, Han Feng, Mingyuan Gao, Yu Gao, Dong Guo, Qiushan Guo, Boyang Hao, Qingkai Hao, Bibo He, Qian He, Tuyen Hoang, Ruoqing Hu, Xi Hu, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Donglei Ji, Siqi Jiang, Wei Jiang, Yunpu Jiang, Zhuo Jiang, Ashley Kim, Jianan Kong, Zhichao Lai, Shanshan Lao, Yichong Leng, Ai Li, Feiya Li, Gen Li, Huixia Li, JiaShi Li, Liang Li, Ming Li, Shanshan Li, Tao Li, Xian Li, Xiaojie Li, Xiaoyang Li, Xingxing Li, Yameng Li, Yifu Li, Yiying Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Zhiqiang Liang, Wang Liao, Yalin Liao, Heng Lin, Kengyu Lin, Shanchuan Lin, Xi Lin, Zhijie Lin, Feng Ling, Fangfang Liu, Gaohong Liu, Jiawei Liu, Jie Liu, Jihao Liu, Shouda Liu, Shu Liu, Sichao Liu, Songwei Liu, Xin Liu, Xue Liu, Yibo Liu, Zikun Liu, Zuxi Liu, Junlin Lyu, Lecheng Lyu, Qian Lyu, Han Mu, Xiaonan Nie, Jingzhe Ning, Xitong Pan, Yanghua Peng, Lianke Qin, Xueqiong Qu, Yuxi Ren, Kai Shen, Guang Shi, Lei Shi, Yan Song, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Yan Sun, Zeyu Sun, Wenjing Tang, Yaxue Tang, Zirui Tao, Feng Wang, Furui Wang, Jinran Wang, Junkai Wang, Ke Wang, Kexin Wang, Qingyi Wang, Rui Wang, Sen Wang, Shuai Wang, Tingru Wang, Weichen Wang, Xin Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Ziyu Wang, Guoqiang Wei, Wanru Wei, Di Wu, Guohong Wu, Hanjie Wu, Jian Wu, Jie Wu, Ruolan Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Liang Xiang, Fei Xiao, XueFeng Xiao, Pan Xie, Shuangyi Xie, Shuang Xu, Jinlan Xue, Shen Yan, Bangbang Yang, Ceyuan Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yang Yang, Yihang Yang, ZhiXian Yang, Ziyan Yang, Songting Yao, Yifan Yao, Zilyu Ye, Bowen Yu, Jian Yu, Chujie Yuan, Linxiao Yuan, Sichun Zeng, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Chuntao Zhang, Heng Zhang, Jingjie Zhang, Kuo Zhang, Liang Zhang, Liying Zhang, Manlin Zhang, Ting Zhang, Weida Zhang, Xiaohe Zhang, Xinyan Zhang, Yan Zhang, Yuan Zhang, Zixiang Zhang, Fengxuan Zhao, Huating Zhao, Yang Zhao, Hao Zheng, Jianbin Zheng, Xiaozheng Zheng, Yangyang Zheng, Yijie Zheng, Jiexin Zhou, Jiahui Zhu, Kuan Zhu, Shenhan Zhu, Wenjia Zhu, Benhui Zou, Feilong Zuo

近年の映像生成技術の進歩により、音声と映像を統合的に生成する道が開かれてきました。本論文では、ネイティブな音声・映像連成生成に特化して設計された基盤モデル「Seedance 1.5 pro」を提案します。デュアルブランチ拡散トランスフォーマーアーキテクチャを活用し、クロスモーダル連成モジュールと専門的な多段階データパイプラインを統合することで、卓越した音響映像同期性と高品質な生成を実現しています。実用性を確保するため、高品質データセットを用いた教師ありファインチューニング（SFT）や、多次元報酬モデルによる人間フィードバック強化学習（RLHF）を含む入念な学習後最適化を実施しました。さらに、推論速度を10倍以上向上させる高速化フレームワークを導入しています。Seedance 1.5 proは、多言語・方言対応の精密なリップシンク、動的な映画的カメラ制御、強化された物語的一貫性により、プロフェッショナル級コンテンツ制作の堅牢なエンジンとして位置づけられています。本モデルはVolcano Engine（https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo）で公開中です。

深度推定の基盤モデル：パノラマ深度推定のためのDepth Any Panoramas
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

本論文では、多様なシーン距離に汎化するパノラマ計測深度基盤モデルを提案する。データ構築とフレームワーク設計の両面から、データインザループのパラダイムを探求する。公開データセット、UE5シミュレーターによる高品質合成データ、テキストto画像モデル、Web収集実パノラマ画像を統合した大規模データセットを構築した。屋内/屋外および合成/実データ間のドメインギャップ低減のため、未ラベル画像への信頼性の高い教師データ生成を目的とした3段階の擬似ラベル精製パイプラインを導入する。モデルでは、強力な事前学習汎化性能を持つDINOv3-Largeをバックボーンに採用し、プラグアンドプレイの距離マスクヘッド、鮮鋭性中心最適化、幾何学的一貫性を強化する幾何学中心最適化を追加。複数ベンチマーク（Stanford2D3D、Matterport3D、Deep360等）での実験により、優れた性能とゼロショット汎化能力を実証し、実世界シーンにおける特にロバストで安定した計測予測を実現した。プロジェクトページは以下：https://insta360-research-team.github.io/DAP_website/

生成的リフォーカシング：単一画像からの柔軟なボケ制御
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

被写界深度の制御は写真撮影において重要ですが、完璧な焦点を得るには通常、複数回の試行や特殊な機材が必要です。単一画像からの再焦点合わせは依然として困難な課題であり、鮮明なコンテンツの回復と写真的に自然なボケ表現の生成を伴います。既存手法には重大な欠点があり、全域焦点画像の入力が必要、シミュレーターによる合成データへの依存度が高い、絞り制御の自由度が限られているなどの問題があります。本研究では「Generative Refocusing」を提案します。これはDeblurNetによる様々な入力からの全域焦点画像回復と、BokehNetによる制御可能なボケ生成の2段階プロセスから構成されます。主な革新点は半教師あり学習手法にあり、合成されたペアデータと実写の非ペアボケ画像を組み合わせ、EXIFメタデータを活用してシミュレーターでは再現困難な実光学特性を学習します。実験結果では、焦点外しぼかし除去、ボケ合成、再焦点合わせの各ベンチマークで最高性能を達成しました。さらに本手法では、テキストガイドに基づく調整や独自の絞り形状の適用も可能です。

DeContextによる防御：拡散トランスフォーマーにおける安全な画像編集
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

文脈対応拡散モデルは、驚くほど容易かつ写実的に画像を修正することを可能にします。しかし、その同じ能力が重大なプライバシー懸念を引き起こします。個人画像が所有者の同意なく、なりすまし・誤情報・その他の悪意ある目的で容易に改変され得るのです。従来研究ではパーソナライズされたテキスト画像生成の悪用防止に向けた入力摂動が探求されてきましたが、大規模な文脈対応DiTベースモデルの頑健性はほとんど検証されていません。本論文では、入力画像を不正な文脈編集から保護する新手法DeContextを提案します。私たちの重要な知見は、ソース画像からの文脈情報が主にマルチモーダル注意層を介して出力に伝播するという点です。これらのクロスアテンション経路を弱体化させる標的型の微小摂動を注入することで、DeContextはこの流れを断ち、入力と出力の連関を効果的に分離します。この簡潔な防御手法は効率的かつ頑健です。さらに、初期のノイズ除去ステップと特定のトランスフォーマーブロックが文脈伝播を支配することを実証し、摂動を最も効果的な箇所に集中させることが可能です。Flux KontextとStep1X-Editを用いた実験により、DeContextが視覚品質を保ちつつ不要な画像編集を一貫して阻止することを確認しました。これらの結果は、画像操作に対する強力な防御手段としての注意機構ベース摂動の有効性を裏付けています。

錬金術師：メタ勾配データ選択によるテキスト画像モデル学習の効率化
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

Imagen、Stable Diffusion、FLUXなどのテキストから画像への生成モデル（T2I）の近年の進展により、視覚的品質は著しく向上している。しかし、その性能は本質的に学習データの品質に制限される。ウェブクロールや合成による画像データセットには、低品質あるいは冗長なサンプルが含まれることが多く、これらは視覚的忠実度の低下、不安定な学習、非効率な計算を引き起こす。したがって、効果的なデータ選択はデータ効率を改善する上で極めて重要である。既存のアプローチは、T2Iデータフィルタリングにおいて、コストのかかる手動選定、または単一次元の特徴に基づくヒューリスティックなスコアリングに依存している。メタ学習に基づく手法は大規模言語モデル（LLM）では探求されているが、画像モダリティへの適応はなされていない。この課題に対し、我々は**Alchemist**を提案する。これは、大規模なテキスト-画像データペアから適切なサセットを選択する、メタ勾配ベースのフレームワークである。本手法は、データ中心の視点からモデルを反復最適化することにより、各サンプルの影響力を自動的に学習して評価する。Alchemistは、データ評価とデータ刈り込みという2つの主要段階で構成される。軽量な評価器を訓練し、マルチグラニュラリティ知覚により強化された勾配情報に基づいて各サンプルの影響力を推定する。その後、Shift-Gsampling戦略を用いて、効率的なモデル学習のための情報量の多いサブセットを選択する。Alchemistは、T2Iモデル学習のための、自動化された、スケーラブルな、メタ勾配ベースのデータ選択フレームワークとしては初めてのものである。合成データセットおよびウェブクロールデータセットを用いた実験により、Alchemistが視覚的品質と下流タスクの性能を一貫して向上させることが実証された。Alchemistで選択されたデータの50%で学習した場合でも、フルデータセットで学習した場合を上回る性能を達成できる。

世界はあなたのキャンバス：参照画像、軌跡、テキストを用いたプロンプト可能なイベントの描画
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

WorldCanvasを紹介します。これはプロンプト可能な世界イベントのフレームワークであり、テキスト、軌跡、参照画像を組み合わせることで、ユーザー主導の豊かなシミュレーションを実現します。テキストのみのアプローチや既存の軌跡制御画像動画生成手法とは異なり、私たちのマルチモーダルアプローチは、動き・タイミング・可視性を符号化する「軌跡」を、意味的意図を表す自然言語、およびオブジェクトの同一性を視覚的に接地する参照画像と組み合わせます。これにより、複数エージェントの相互作用、オブジェクトの出現/消失、参照画像に基づく外見、直感に反する事象を含む、一貫性と制御性を備えたイベント生成が可能になります。生成される動画は時間的コヒーレンスに加えて、一時的な消失後もオブジェクトの同一性やシーンが維持される「創発的一貫性」を示します。表現力豊かな世界イベント生成をサポートするWorldCanvasは、世界モデルを受動的な予測器から、ユーザーが形作る対話型シミュレータへと進化させます。プロジェクトページは以下で公開されています：https://worldcanvas.github.io/

潜在表現をグローバルおよびローカルな意味論で正則化する：もつれを解いた拡散モデル
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

潜在拡散モデル（LDM）は画像合成において最先端の性能を達成しているが、その再構成型のノイズ除去目的関数は間接的な意味的監督のみを提供する。高レベルの意味情報は緩やかに出現するため、学習時間が長くなり、サンプル品質が制限される。近年の研究では、視覚基盤モデル（VFM）からの意味情報を、表現アライメントによる外部注入、または拡散過程内でVFM特徴の一部のみを共同モデリングする内部注入によって付与する手法が提案されている。しかし、これらはVFMが提供する豊富な非線形の多層空間意味情報を十分に活用できていない。本研究では、REGLUE（Representation Entanglement with Global-Local Unified Encoding）を提案する。これは、(i) VAE画像潜在変数、(ii) コンパクトな局所（パッチレベル）VFM意味情報、(iii) 大域（画像レベル）[CLS]トークンを、単一のSiTバックボーン内で共同モデリングする統合型潜在拡散フレームワークである。軽量な畳み込みセマンティックコンプレッサーが多層VFM特徴を非線形に集約し、低次元で空間構造を持つ表現を生成する。この表現は拡散過程においてVAE潜在変数と絡み合う。さらに、外部アライメント損失が内部表現を凍結されたVFM目標に向けて正則化する。ImageNet 256x256において、REGLUEはSiT-B/2およびSiT-XL/2ベースライン、ならびにREPA、ReDi、REGを一貫して上回るFID改善と収束加速を実現した。詳細な実験により、(a) 空間的VFM意味情報が重要であること、(b) 非線形圧縮がその効果を最大限に引き出す鍵であること、(c) 大域トークンと外部アライメントが、我々の大域-局所-潜在変数の共同モデリングフレームワーク内で相補的かつ軽量な強化として機能することが示された。コードはhttps://github.com/giorgospets/reglue で公開されている。

N3D-VLM：ネイティブ3Dグラウンディングによる視覚言語モデルの高精度な空間推論
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

現在のマルチモーダルモデルは2D画像に基づく質問応答が可能だが、本質的な3Dオブジェクト知覚を欠いており、3Dシーンにおける空間関係や深度手がかりの理解能力が制限されている。本研究では、ネイティブな3Dオブジェクト知覚と3D認識視覚推論を統合した新しい統一フレームワーク「N3D-VLM」を提案する。これにより、精密な3Dグラウンディングと解釈可能な空間理解が可能となる。RGB/RGB-D入力から直接回答を予測する従来のエンドツーエンドモデルとは異なり、本手法はモデルにネイティブな3Dオブジェクト知覚能力を付与し、テキスト記述に基づいて3D空間内でオブジェクトを直接位置特定できるようにする。正確な3Dオブジェクト位置特定を基盤として、モデルは3D空間での明示的推論をさらに実行し、より解釈可能で構造化された空間理解を実現する。これらの能力の堅牢な訓練を支援するため、深度推定を活用して大規模2D注釈を3D空間にリフトするスケーラブルなデータ構築パイプラインを開発した。これにより、3Dオブジェクトグラウンディングデータの多様性と網羅性が大幅に向上し、既存最大の単一画像3D検出データセットの6倍以上規模となった。さらに、このパイプラインは3D空間における連鎖思考（CoT）推論を対象とした空間的質問応答データセットを生成し、3Dオブジェクト位置特定と3D空間推論の共同訓練を促進する。実験結果により、本統一フレームワークが3Dグラウンディングタスクで最先端の性能を達成するだけでなく、視覚言語モデルにおける3D空間推論でも既存手法を一貫して上回ることを実証した。

JustRL: シンプルなRLレシピによる15億パラメータLLMのスケーリング
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

大規模言語モデルにおける強化学習の最近の進歩は、複雑性の増大という方向に収束しつつある：多段階トレーニングパイプライン、動的ハイパーパラメータスケジュール、カリキュラム学習戦略などである。これは根本的な疑問を提起する：この複雑さは本当に必要なのか？我々はJustRLを提案する。これは固定ハイパーパラメータを用いた単段階トレーニングという最小限のアプローチであり、2つの15Bパラメータ推論モデルにおいて（9つの数学ベンチマークで平均精度54.9％および64.3％を達成）、洗練された手法よりも計算量を2分の1に抑えつつ、最先端の性能を実現する。同じハイパーパラメータがチューニングなしで両モデル間で転移し、トレーニングは4,000ステップ以上にわたり、通常は介入を促す崩壊やプラトーを伴わない滑らかで単調な改善を示す。決定的に、アブレーション研究により、明示的な長さペナルティや頑健な検証器といった「標準的な工夫」を追加することが、探索の崩壊を引き起こし性能を劣化させる可能性があることが明らかになった。これらの結果は、分野が、安定したスケールアップされたベースラインでは消失する問題を解決するために複雑性を追加している可能性を示唆する。我々はモデルとコードを公開し、コミュニティに向けた単純で検証済みのベースラインを確立する。

AdaTooler-V：画像と動画に対する適応的ツール利用
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

近年の研究により、マルチモーダル大規模言語モデル（MLLM）が、視覚ツール連携を伴うマルチモーダル連鎖思考（CoT）から恩恵を受けることが示されている。しかし、既存のオープンソースモデルは、ツールが不要な場合でも視覚ツールを呼び出す「盲目的なツール使用推論」パターンを示すことが多く、これにより推論のオーバーヘッドが大幅に増加し、モデル性能が低下する。そこで本研究では、視覚問題が真にツールを必要とするかどうかを判断することで適応的なツール使用を行うMLLM、AdaTooler-Vを提案する。まず、各サンプルの「ツール便益スコア」に基づいて報酬スケールを適応的に調整する強化学習アルゴリズムAT-GRPOを導入し、ツールが真に改善をもたらす場合にのみツールを呼び出すようモデルを促進する。さらに、学習を支援するため2つのデータセットを構築した：SFTのコールドスタート用のAdaTooler-V-CoT-100kと、単一画像・複数画像・動画データにわたる検証可能な報酬を用いたRL用のAdaTooler-V-300kである。12のベンチマークによる実験では、AdaTooler-Vの強力な推論能力が実証され、多様な視覚推論タスクで既存手法を凌駕した。特に、AdaTooler-V-7Bは高解像度ベンチマークV*において89.8%の精度を達成し、商用の専有モデルであるGPT-4oおよびGemini 1.5 Proを上回った。すべてのコード、モデル、データは公開されている。

EasyV2V：高品質な命令ベース動画編集フレームワーク
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

画像編集が急速に進歩する中、動画編集は未開拓の分野であり、一貫性、制御性、汎化性において課題に直面しています。本研究では、データ、アーキテクチャ、制御の設計空間を検討し、指示ベースの動画編集のための簡潔で効果的なフレームワークであるEasyV2Vを提案します。データ面では、既存の専門技術と高速逆変換を組み合わせて多様な動画ペアを構築し、単一フレーム監督と共有アフィン運動量を用いた擬似ペアにより画像編集ペアを動画に拡張し、高密度にキャプション付けされたクリップから動画ペアを抽出し、編集の遷移を教えるための遷移監督を追加しました。モデル面では、事前学習済みテキスト→動画モデルが編集能力を有することを確認し、簡素化された設計の動機付けとしました。軽量なLoRAファインチューニングと単純な系列連結による条件付けにより、強力なモデルを訓練できます。制御面では、単一マスク機構による時空間制御の統一と、オプションの参照画像サポートを実現しました。全体として、EasyV2Vは動画+テキスト、動画+マスク+テキスト、動画+マスク+参照画像+テキストなど柔軟な入力に対応し、最新の動画編集結果を達成し、同時期の研究や商用システムを凌駕します。プロジェクトページ: https://snap-research.github.io/easyv2v/

FlashPortrait：適応的潜在予測による6倍高速な無限ポートレートアニメーション
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

現在の拡散ベースの長尺ポートレートアニメーション加速手法は、アイデンティティ（ID）一貫性の確保に課題を抱えている。本論文では、IDを保持した無限長の動画を合成可能なエンドツーエンドのビデオ拡散トランスフォーマーであるFlashPortraitを提案する。さらに、推論速度において最大6倍の加速を実現する。具体的には、FlashPortraitはまず、既製の抽出器を用いてIDに依存しない顔表情特徴を計算する。次に、正規化顔表情ブロックを導入し、顔特徴をそれぞれの平均と分散で正規化することで拡散潜在表現と整合させ、顔モデリングにおけるID安定性を向上させる。推論時には、動的スライディングウィンドウ方式と重複領域における重み付きブレンディングを採用し、長尺アニメーションにおける滑らかな遷移とID一貫性を保証する。各コンテキストウィンドウ内では、特定のタイムステップにおける潜在変動率と拡散層間の微分値大きさ比に基づき、現在のタイムステップでの高次潜在微分値を利用して将来のタイムステップの潜在表現を直接予測する。これにより、複数のノイズ除去ステップをスキップし、6倍の速度加速を達成する。ベンチマークを用いた実験により、FlashPortraitの質的・量的な有効性が示された。

マルチモーダルRewardBench 2：インタリーブされたテキストと画像に対するオムニ報酬モデルの評価
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

報酬モデル（RMs）は大規模言語モデル（LLMs）の訓練に不可欠であるが、画像とテキストの交互配置シーケンスを扱うオムニモデルへの応用は未開拓のままである。本研究では、マルチモーダル理解と（交互配置）生成における報酬モデルの最初の包括的ベンチマークであるMultimodal RewardBench 2（MMRB2）を提案する。MMRB2は、テキストから画像への生成、画像編集、交互配置生成、マルチモーダル推論（「画像を用いた思考」）の4タスクを網羅し、21のソースタスクから23のモデルとエージェントを用いて、タスク毎に1,000組の専門家注釈付き選好ペアを提供する。MMRB2は以下の特徴を備えて設計されている：（1）実用的かつ挑戦的なプロンプト、（2）最先端のモデルとエージェントからの応答、（3）アンサンブルフィルタリング戦略により精選された、強力な人間専門家の合意がある選好ペア。MMRB2を用いて、マルチモーダルLLM-as-a-judgeや人間の選好で訓練されたモデルを含む、各サブタスクに対する既存の評価手法を検証する。最新のGemini 3 Proは75-80%の精度を達成する。GPT-5とGemini 2.5 Proは66-75%の精度に達し（人間の90%超と比較）、広く使用されているGPT-4o（59%）を上回る。最高性能のオープンソースモデルであるQwen3-VL-32Bは、Gemini 2.5 Flash（64%）と同様の精度を達成する。また、Best-of-Nサンプリングを用いた下流タスクの成功とMMRB2の性能が強く相関することを示し、報酬モデルを改善すべき重要な領域を明らかにする詳細な分析を行う。

探索か搾取か：クリッピング、エントロピー、疑似報酬によるRLVRの再考
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

本論文は、大規模言語モデル（LLM）の推論能力向上を目指す枠組みである検証可能報酬による強化学習（RLVR）における探索と利用のトレードオフを検証する。最近の研究は、RLVRが一見矛盾する二つのメカニズムを通じてLLMに強力な数学的推論能力を引き出す可能性を示唆している。すなわち、正解とは無関係な結果を報酬付与することで利用を抑制する**虚偽報酬**と、モデルをより確信度の高い決定的な出力へ向かわせることで探索を抑制する**エントロピー最小化**である。ここには逆説的な力学が存在する：利用の抑制と探索の抑制の双方が推論性能を向上させる一方、これらの効果を統合的に説明する基本原理は未解明のままである。我々は以下の二つの根本的問いに焦点を当てる：(i) 方策エントロピーが性能とどのように関連するか、(ii) 虚偽報酬が、クリッピングバイアスとモデル汚染の相互作用を介して利益をもたらすか否か。結果として、虚偽報酬下でのクリッピングバイアスは方策エントロピーを減少させ、より確信的で決定的な出力を導くが、エントロピー最小化のみでは改善に不十分であることが示された。さらに我々は、虚偽報酬が汚染設定を超えて性能を向上させ得る理由を説明する**報酬ミスアライメントモデル**を提案する。本研究の知見は、虚偽報酬の利益をもたらす背後メカニズムを明らかにし、より効果的なRLVR訓練のための指針を提供する。

RePlan：複雑な指示に基づく画像編集のための推論誘導型領域計画
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

指示に基づく画像編集は、視覚的変更に対する自然言語制御を可能にするが、既存のモデルは、複雑な指示が雑多あるいは曖昧な場面に遭遇する「指示-視覚的複雑性（IV-Complexity）」の下では不十分である。本論文では、計画-実行フレームワークであるRePlan（Region-aligned Planning）を提案する。これは視覚言語プランナと拡散モデルエディタを連携させ、プランナが段階的推論により指示を分解し、対象領域を明示的に接地する。エディタは、学習不要な注意領域注入メカニズムを用いて変更を適用し、反復的なインペインティングなしで正確な並列的多領域編集を実現する。計画能力を強化するため、1,000件の指示のみの事例を用いたGRPOベースの強化学習を適用し、推論の忠実性と形式の信頼性を大幅に向上させた。さらに、細粒度の接地と知識集約的な編集に焦点を当てたベンチマークIV-Editを提示する。IV-Complexな設定において、RePlanははるかに大規模なデータセットで学習した強力なベースラインを一貫して上回り、領域精度と全体的な忠実性を向上させる。プロジェクトページ: https://replan-iv-edit.github.io

ModelTables: モデルに関するテーブルコーパス
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

我々はModelTablesを提案する。これはモデルレイク（Model Lakes）内のテーブルに関するベンチマークであり、テキストのみの検索では見過ごされがちな性能設定テーブルの構造化された意味情報を捉える。本コーパスはHugging Faceのモデルカード、GitHubのREADME、参照論文から構築され、各テーブルを対応するモデルおよび論文コンテキストと関連付けている。オープンデータレイクのテーブルと比較すると、モデルテーブルは小規模ながら、密なテーブル間関係を示し、モデルとベンチマークの緊密な共進化を反映している。現在のリリースでは6万以上のモデルと9万以上のテーブルを網羅する。モデルとテーブルの関連性評価のために、3つの相補的信号を用いたマルチソースグラウンドトゥルースを構築した：（1）論文引用リンク、（2）明示的なモデルカードのリンクと継承関係、（3）共有学習データセット。ベンチマークの実証的ユースケースとしてテーブル検索を詳細に検証し、従来のデータレイク検索演算子（和結合可能、結合可能、キーワード）と情報検索ベースライン（密検索、疎検索、ハイブリッド検索）を比較した。和結合に基づく意味的テーブル検索は全体でP@1 54.8%（引用関係54.6%、継承関係31.3%、共有データセット30.6%）を達成し、テーブルベースの密検索はP@1 66.5%、メタデータハイブリッド検索は54.1%となった。この評価は、より優れたテーブル検索手法の開発余地が大きいことを示唆する。ModelTablesとその構築プロトコルを公開することで、AIモデルを記述する構造化データ初の大規模ベンチマークを提供する。モデルレイクにおけるテーブル発見のユースケースは、構造化されたモデル知識のより正確な意味検索、構造化比較、体系的な組織化の開発に直観と証拠を提供する。ソースコード、データ、その他の成果物はhttps://github.com/RJMillerLab/ModelTables で公開されている。

VenusBench-GD：多様なグラウンディングタスクのための包括的マルチプラットフォームGUIベンチマーク
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

GUIグラウンディングは、高機能なGUIエージェント構築における重要な要素である。しかし、既存のグラウンディングベンチマークには重大な限界がある：データ量が不十分でドメイン範囲が狭いか、単一プラットフォームに過度に焦点を当て専門性の高いドメイン知識を必要とするかのいずれかである。本研究では、複数プラットフォームにまたがり実世界アプリケーションの階層的評価を可能にする、包括的なバイリンガルGUIグラウンディングベンチマーク「VenusBench-GD」を提案する。VenusBench-GDの貢献は以下の通りである：(i) 広範なアプリケーションカバレッジ、多様なUI要素、豊富な注釈データを備えた大規模クロスプラットフォームベンチマークを導入、(ii) グラウンディングタスク向けの高品質なデータ構築パイプラインを確立し、既存ベンチマークよりも高い注釈精度を達成、(iii) グラウンディングを基本カテゴリと応用カテゴリに分類し、相補的な視点からモデルを評価する6つの異なるサブタスクを含む階層的タスク分類を提案することで、要素グラウンディングの範囲を拡張。実験結果から重要な知見が得られた：汎用マルチモーダルモデルは、基本グラウンディングタスクにおいて専門GUIモデルに匹敵、あるいは凌駕する性能を示す。一方、応用タスクでは依然としてGUI特化モデルが優位であるものの、過剰適合が顕著で堅牢性に欠ける。これらの結果は、包括的かつ多層的な評価フレームワークの必要性を強調するものである。

聴覚による翻訳：大規模言語モデルへの音声モダリティ統合の有効性
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

大規模言語モデル（LLM）がテキストを超えて拡大する中、音声をネイティブなモダリティとして統合する動きが進み、従来の書き起こしを基盤としたパイプラインを迂回して音声言語を直接翻訳することを目指すSpeechLLMが登場した。しかし、この統合が確立されたカスケード型アーキテクチャよりも音声テキスト翻訳の品質を向上させるかどうかは、未解決の問題である。本研究では、Hearing to Translateを提案する。これは、最先端の5つのSpeechLLMを、優れた音声基盤モデル（SFM）と多言語LLMを組み合わせた16の強力な直接・カスケードシステムと比較し、厳密にベンチマークを行う初の包括的なテストスイートである。分析は、16のベンチマーク、13の言語ペア、および非流暢、雑音混じり、長文音声など9つの困難な条件にわたる。この広範な評価を通じて、カスケード型システムが全体的に最も信頼性が高く、現時点のSpeechLLMは特定の設定でのみカスケード型システムに匹敵し、SFMは両者に遅れをとっていることが明らかになった。これは、モデル内またはパイプライン内のいずれかでLLMを統合することが、高品質な音声翻訳にとって不可欠であることを示唆している。

差異が重要である：能力ギャップの発見と是正のためのモデル監査
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

従来のマルチモーダルLLM（MLLM）の評価手法は解釈性に欠け、モデル間の重要な能力差を十分に明らかにできないことが多い。この問題に対処するため、我々はAuditDMを提案する。これはMLLMの分岐を監査することで、能動的に失敗モードを発見し修正する自動化フレームワークである。AuditDMは強化学習によりMLLMを監査者としてファインチューニングし、対象モデル間の不一致を最大化する挑戦的な質問と反事実的画像を生成する。一度訓練されると、この監査者はモデルの弱点を明らかにする多様で解釈可能な事例を発見し、それらは修正のためのアノテーションフリーデータとして機能する。Gemma-3やPaliGemma-2などのSoTAモデルに適用した結果、AuditDMは20以上の異なる失敗タイプを発見した。これらの発見に基づくファインチューニングは、16のベンチマークですべてのモデルの性能を一貫して向上させ、3Bモデルが28Bモデルを凌駕することを可能にした。我々の結果は、データスケーリングの限界が近づく中、標的型モデル監査がモデルの診断と改善における効果的な道筋を提供することを示唆している。

インサイトマイナー：自然言語とのクロスドメインアライメントのための時系列分析データセット
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang

時系列データは、環境分析、農業、交通、金融など、多くの科学分野や産業領域において極めて重要である。しかし、このデータから洞察を発掘するには通常、深い専門知識が必要であり、時間と労力を要するプロセスとなっている。本論文では、ドメイン固有の知識を豊富に含んだ高品質で包括的な時系列記述を生成するために設計された大規模マルチモーダルモデル（LMM）、Insight Minerを提案する。これを実現するため、時系列データと言語のアラインメントにおける初の汎用ドメインデータセットであるTS-InsightsAvailable at \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}.}を導入する。TS-Insightsは、20の予測データセットからサンプリングされた10万の時系列ウィンドウを含む。このデータセットは、統計ツールを用いて生の時系列データから特徴量を抽出した後、GPT-4を用いてそれらを首尾一貫したトレンド記述へと統合する、新しいエージェントワークフローによって構築した。TS-Insightsで指示チューニングを行った後、Insight Minerは、時系列の記述と洞察の生成において、LLaVA liu2023llava や GPT-4 などの最先端マルチモーダルモデルを凌駕する性能を示した。我々の発見は、時系列分析においてLMMを活用する有望な方向性を示唆するとともに、LLMが時系列をネイティブな入力モダリティとして解釈できるようにするための基礎的な一歩となる。

効率的な拡散変換器のための学習可能な対数線形スパースアテンション
Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

Dec 18

ByYifan Zhou, Zeqi Xiao, Tianyi Wei, Shuai Yang, Xingang Pan

拡散トランスフォーマー（DiT）は視覚生成において最先端の性能を達成しているが、その二次関数的なセルフアテンションコストが、長いトークン系列へのスケーリングを根本的に制限している。近年のTop-Kスパースアテンション手法は、トークンをブロック単位の表現に圧縮し、関連するキーブロックの小さな集合を選択することでDiTの計算量を削減するが、依然として（i）圧縮トークンに対する二次関数的な選択コストと、（ii）系列長の増加に伴いモデル品質を維持するために必要なK値の増大という課題に直面している。我々は、この非効率性の原因が単一レベルの設計にあることを明らかにした。単一の粗いレベルでは大域的な構造を表現するには不十分であるためである。本論文では、極めて長いトークン系列のための学習可能なスパースアテンション機構である対数線形スパースアテンション（LLSA）を提案する。LLSAは階層構造を利用することで、選択コストとアテンションコストの両方を二次関数的複雑度から対数線形複雑度に削減する。LLSAは階層的Top-K選択を実行し、前のレベルで見つかったインデックスを用いて段階的にスパースなTop-K選択を適用する。さらに、アテンション計算中に異なる粒度のより少ないトークンを使用しながら大域的な文脈を保持する、階層的KVエンリッチメント機構を導入する。効率的な学習をサポートするため、フォワードパスとバックワードパスの両方でスパースなインデックスのみを使用し、密なアテンションマスクを不要とする高性能なGPU実装を開発した。パッチ化やVAEエンコーディングを使用せずに、高解像度のピクセル空間画像生成に対してLLSAを評価した。LLSAは、256x256ピクセルのトークン系列において、アテンション推論を28.27倍、DiT学習を6.09倍高速化しつつ、生成品質を維持した。この結果は、LLSAが長系列DiTを効率的に学習するための有望な方向性を提供することを示している。コードはhttps://github.com/SingleZombie/LLSA で公開されている。

FrameDiffuser: ニューラル前方フレームレンダリングのためのGバッファ条件付き拡散モデル
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Dec 18

ByOle Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

インタラクティブアプリケーションにおけるニューラルレンダリングでは、ジオメトリおよびマテリアル特性（G-buffer）をフォトリアルな画像に変換し、フレームごとに現実的なライティングを再現する必要がある。近年、G-bufferを条件とした画像合成において拡散モデルベースの手法が有望視されているが、重大な限界がある。RGBXのような単一画像モデルはフレームを独立して生成するため時間的一貫性がなく、DiffusionRendererのような動画モデルは、多くのコンシューマー向けゲーム環境では計算コストが高すぎ、完全なシーケンスを事前に必要とするため、将来フレームがユーザー入力に依存するインタラクティブアプリケーションには不向きである。本論文では、FrameDiffuserを提案する。これは、G-bufferデータとモデル自身の過去の出力を条件として、時間的一貫性のあるフォトリアルなフレームを生成する自己回帰型ニューラルレンダリングフレームワークである。初期フレーム以降、FrameDiffuserはジオメトリ、マテリアル、表面特性からなる入力G-bufferデータのみで動作し、時間的ガイダンスとして自身が生成した前フレームを利用することで、数百から数千フレームにわたる安定した時間的一貫性のある生成を実現する。我々のデュアル条件付けアーキテクチャは、構造的ガイダンスのためのControlNetと時間的コヒーレンスのためのControlLoRAを組み合わせている。3段階のトレーニング戦略により、安定した自己回帰的生成を可能にする。本モデルは個々の環境に特化させ、汎用性よりも一貫性と推論速度を優先する。環境特化型トレーニングが、一般化されたアプローチと比較して、正確なライティング、シャドウ、反射を伴う優れたフォトリアル品質を達成することを実証する。

双方向正規化フロー：データからノイズへ、そして戻る
Bidirectional Normalizing Flow: From Data to Noise and Back

Dec 11

ByYiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He

Normalizing Flows（NFs）は、生成的モデリングにおける原理的な枠組みとして確立されている。標準的なNFは順方向過程と逆方向過程で構成され、順方向過程はデータをノイズに写像する一方、逆方向過程はその逆変換によりサンプルを生成する。従来のNFの順方向変換は明示的な可逆性によって制約され、逆方向過程が正確な解析的逆変換として機能することが保証されてきた。近年のTARFlowとその派生研究は、Transformerと自己回帰フローを組み合わせることでNF手法を刷新したが、因果的デコーディングが主要なボトルネックであることも明らかにした。本研究では、正確な解析的逆変換を必要としない枠組みであるBidirectional Normalizing Flow（BiFlow）を提案する。BiFlowは、基盤となるノイズからデータへの逆写像を近似する逆モデルを学習することで、より柔軟な損失関数とアーキテクチャを可能とする。ImageNetにおける実験により、BiFlowは因果的デコーディングの手法と比較して、生成品質を向上させつつ、最大2桁の速さでサンプリングを加速できることを実証した。BiFlowはNFベースの手法の中で最先端の結果を示し、単一評価（「1-NFE」）手法の中でも競争力のある性能を発揮する。NFにおける最近の有望な進展に続き、我々の研究がこの古典的パラダイムへのさらなる関心を集めることを期待する。

言語モデルの汎用推論のための結合変分強化学習
Coupled Variational Reinforcement Learning for Language Model General Reasoning

Dec 14

ByXueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang

強化学習は言語モデルの推論において目覚ましい進展を遂げているが、検証可能な報酬を必要とするという制約がある。最近の検証器不要の強化学習手法は、参照回答を生成する大規模言語モデルの内在的な確率を報酬信号として利用することでこの限界に対処している。しかし、これらの手法では一般に問題文のみを条件とした推論トレースをサンプリングする。この設計は推論トレースのサンプリングと回答情報を分離してしまうため、非効率な探索やトレースと最終回答の不整合を引き起こす。本論文では、変分推論と強化学習を、事前分布と事後分布をハイブリッドサンプリング戦略により結合することで橋渡しする **Coupled Variational Reinforcement Learning** (CoVRL) を提案する。これら2つの分布を統合した複合分布を構築・最適化することで、CoVRLは強固な思考-回答の一貫性を保ちつつ効率的な探索を可能にする。数学的推論および一般推論のベンチマークにおける大規模な実験により、CoVRLがベースモデルよりも12.4%性能を向上させ、強力な最新の検証器不要強化学習ベースラインに対してもさらに2.3%の改善を達成することを示し、言語モデルの一般的な推論能力を高めるための原理に基づいた枠組みを提供する。

メイク・イット・ポーズ可能：3Dヒューマノイドキャラクターアニメーションのためのフィードフォワード潜在ポージングモデル
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

Dec 18

ByZhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li

3Dキャラクターポージングはコンピュータグラフィックスおよびビジョンにおける基本的な課題である。しかし、自動リギングやポーズ条件付き生成などの既存手法は、不正確なスキニング重み予測、トポロジーの不完全性、不十分なポーズ適合性といった課題に悩まされており、堅牢性と一般化性が制限されている。これらの限界を克服するため、我々はMake-It-Poseableを提案する。これはキャラクターポージングを潜在空間変換問題として再定義する新しい順伝播型フレームワークである。従来のパイプラインのようにメッシュ頂点を変形する代わりに、本手法は潜在表現を直接操作することで新しいポーズにおけるキャラクターを再構築する。本手法の中核には、骨格運動に基づいて形状トークンを操作する潜在ポージング変換器が存在する。このプロセスは、精密な制御のための高密度ポーズ表現によって促進される。高忠実度な幾何学を保証しトポロジー変化に対応するため、潜在空間監視戦略と適応的補完モジュールも導入する。本手法はポージング品質において優れた性能を示し、部品交換やリファインメントといった3D編集応用へ自然に拡張可能である。

MomaGraph: 具身タスク計画のためのビジョン言語モデルによる状態認識統合シーングラフ
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Dec 18

ByYuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath

家庭環境における移動マニピュレータは、ナビゲーションと操作の両方を実行する必要がある。これには、物体の位置や機能、操作可能な部分を捉えた、コンパクトで意味的に豊かなシーン表現が求められる。シーングラフは自然な選択肢であるが、従来の研究では空間的関係と機能的関係が分離されがちで、物体の状態や時間的更新を伴わない静的なスナップショットとしてシーンを扱い、現在のタスク達成に最も関連する情報を見落とす傾向がある。これらの課題に対処するため、我々は空間的・機能的関係と部品レベルの対話要素を統合した具身エージェント向け統一シーン表現「MomaGraph」を提案する。しかし、このような表現を発展させるには、適切なデータと厳格な評価基準が不可欠であり、これまでそれらはほぼ存在しなかった。そこで我々は、家庭環境におけるタスク指向の詳細注釈付きシーングラフの大規模データセット「MomaGraph-Scenes」と、高次計画から細粒度シーン理解まで6つの推論能力を網羅する系統的評価スイート「MomaGraph-Bench」を構築した。この基盤に立脚し、強化学習によりMomaGraph-Scenesで訓練した70億パラメータの視覚言語モデル「MomaGraph-R1」をさらに開発した。MomaGraph-R1はタスク指向シーングラフを予測し、Graph-then-Planフレームワーク下でゼロショットタスクプランナーとして機能する。大規模な実験により、本モデルがオープンソースモデルの中で最高性能を達成し、ベンチマークで71.6%の精度（既存最高ベースライン比+11.4%）を記録するとともに、公開ベンチマークへの汎化や実ロボット実験への効果的な転移が可能であることを実証した。

心内推論：潜在空間における動的マルチモーダルインタリービング
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Dec 14

ByChengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang

近年のマルチモーダル大規模言語モデル（MLLM）の発展は、意味空間における連鎖的思考（Chain-of-Thought: CoT）推論を組み込むことで、異種モダリティ間の理解と推論能力を大幅に向上させてきた。この流れを受け、最近の研究ではCoTメカニズムを視覚モダリティに拡張し、外部ツールや明示的な画像生成を通じて推論中に視覚情報を統合する手法が提案されている。しかし、これらの手法は依然として明示的な段階的推論への依存、不安定な知覚‐推論インタラクション、および顕著な計算コストといった課題を抱えている。人間の認知プロセスに着想を得て、我々は思考が直線的ではなく、心の中での推論と知覚の動的な交互作用によって展開されると考える。この視点に基づき、本論文ではDMLR（テスト時動的マルチモーダル潜在推論フレームワーク）を提案する。この枠組みでは、信頼度誘導型潜在ポリシー勾配最適化を用いて潜在思考トークンを精緻化し、深い推論を実現する。さらに、動的視覚注入戦略を導入し、各潜在思考トークンにおいて最も関連性の高い視覚特徴を検索し、最適な視覚パッチの集合を更新する。更新されたパッチは潜在思考トークンに注入され、動的な視覚‐テキストの交互作用を実現する。7つのマルチモーダル推論ベンチマークと様々なモデルアーキテクチャを用いた実験により、DMLRが高い推論効率を維持しつつ、推論性能と知覚性能を大幅に改善することが実証された。

創造的なつながりと視覚的コンセプト表現のための空間体験
Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Dec 16

ByHuzheng Yang, Katherine Xu, Andrew Lu, Michael D. Grossberg, Yutong Bai, Jianbo Shi

新しい視覚概念の創造には、多くの場合、異なるアイデアをそれらの最も関連性の高い共有属性、すなわち「雰囲気（vibe）」を通じて結びつけることが必要です。本論文では、画像間のこれらの共有属性を明らかにする、首尾一貫した意味のあるハイブリッドを生成する新しいタスク「Vibe Blending」を提案します。このようなブレンドを達成することは、潜在空間内で離れた概念を結ぶ非線形の経路を特定し、それに沿って移動することが困難な既存手法にとって挑戦的な課題です。我々は、CLIPなどの特徴空間において低次元の測地線を学習する階層的グラフ多様体「Vibe Space」を提案し、概念間の滑らかで意味的に一貫した遷移を可能にします。創造的品質を評価するため、人間の判断、LLMの推論、および幾何学的な経路ベースの難易度スコアを組み合わせた認知科学に着想を得た評価フレームワークを設計しました。その結果、Vibe Spaceが生成するブレンドは、既存手法と比較して、人間から一貫してより創造的で首尾一貫していると評価されることがわかりました。

TabReX : 表形式参照不要説明可能評価
TabReX : Tabular Referenceless eXplainable Evaluation

Dec 17

ByTejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta

大規模言語モデル(LLM)によって生成された表の品質評価は未解決の課題であり、既存の指標は表をテキストに平坦化して構造を無視するか、一般化を制限する固定参照に依存している。本論文では、グラフベース推論による表生成評価のための参照不要・特性駆動型フレームワーク「TabReX」を提案する。TabReXは、元のテキストと生成された表の両方を正規化知識グラフに変換し、LLM誘導型マッチングプロセスを通じてそれらを整合させ、構造的・事実的忠実度を定量化する解釈可能なルーブリック対応スコアを算出する。これにより、感度と特異性の制御可能なトレードオフを実現し、人間の判断と整合した評価とセル単位のエラー追跡を可能にする。指標の頑健性を体系的に評価するため、6領域・3難易度階層にわたる12種類のプランナー駆動摂動を含む大規模ベンチマーク「TabReX-Bench」を導入した。実験結果では、TabReXは専門家の順位付けとの最高の相関を達成し、困難な摂動下でも安定性を維持し、モデル対プロンプトの詳細分析を可能にすることで、構造化生成システムの信頼性高く説明可能な評価の新たなパラダイムを確立することを示した。

再帰的トランスフォーマーの改善：Mixture of LoRAsの応用
Improving Recursive Transformers with Mixture of LoRAs

Dec 14

ByMohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian

再帰的トランスフォーマーにおけるパラメータ共有はモデルサイズを削減するが、層ごとの表現力を低下させる。本研究では、共有フィードフォワードネットワーク（FFN）内にLoRA（Low-Rank Adaptation）エキスパートを挿入する軽量な条件付き計算機構であるMixture of LoRAs（MoL）を提案する。MoLは、固定または外部接続されたアダプターを追加する従来手法とは異なり、バックボーンパラメータを変更せずに共有FFNのトークン条件付き重み空間変調を可能にする。我々は、回転位置埋め込み、GeGLU、FlashAttention、および知識蒸留に基づく初期化を統合した現代的な再帰的アーキテクチャであるModernALBERTを事前学習した。GLUE、SQuAD-v2、BEIRにおける評価では、ModernALBERT（50M～120Mパラメータ）がコンパクトモデルの中で最高性能を達成し、大規模な完全パラメータ化ベースラインを凌駕した。さらに、推論時に精度を維持したままMoLを単一アダプターに圧縮するエキスパート統合手法を提案し、効率的なデプロイを実現する。実験結果は、条件付き重み空間変調が再帰的トランスフォーマーにおける過度なパラメータ共有によって失われた表現力を効果的に回復させることを示す。

EmoCaliber: 信頼性の高い視覚的感情理解を信頼度言語化と較正によって推進
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Dec 17

ByDaiqing Wu, Dongbao Yang, Can Ma. Yu Zhou

視覚感情理解（VEC）は、画像に埋め込まれた感情的手がかりから感情の極性や感情カテゴリを推論することを目的とする。近年、マルチモーダル大規模言語モデル（MLLM）は、様々な感情分類体系で定義されたVECタスクを統一的に扱うその汎化性を活かし、VECにおいて一般的なパラダイムを確立してきた。このパラダイムは顕著な成功を収めているものの、通常、VECを決定論的タスクとして定式化し、モデルに各画像に対して単一の決定的な感情ラベルを出力させる。このような定式化は、感情知覚に内在する主観性を十分に考慮しておらず、異なる視聴者にとって同様に妥当たり得る代替的解釈を見落としている。この限界に対処するため、我々はMLLMに感情予測に対する自身の信頼度を言語化する能力を付与することを提案する。この追加的な信号は、ユーザーに代替解釈の妥当性とMLLM自身が評価した能力の両方の推定値を提供し、実践における信頼性を高める。この知見に基づき、我々は構造化推論を段階的に付与し、信頼度の言語化を教え、信頼度表現を較正する三段階のトレーニングフレームワークを導入し、信頼度を考慮したVEC向けMLLMであるEmoCaliberを開発した。統一ベンチマークVECBenchにおける公平かつ包括的な評価を通じて、EmoCaliberは感情予測と信頼度推定の両方において、既存手法に対する全体的な優位性を示した。これらの結果は我々のアプローチの有効性を実証し、より信頼性の高いVECシステムに向けた実現可能な一歩を示すものである。プロジェクトページ: https://github.com/wdqqdw/EmoCaliber。

Nemotron-Math: マルチモード監視による数学的推論の効率的な長文脈蒸留
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Dec 17

ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman

高品質な数学的推論の監修には、多様な推論スタイル、長文の推論過程、効果的なツール統合が求められますが、既存のデータセットがこれらの能力を提供するのは限定的です。我々は、gpt-oss-120bのマルチモード生成能力を活用し、高・中・低の各推論モードにおける750万の解法過程を含む大規模数学推論データセット「Nemotron-Math」を開発しました。各モードは、Pythonツール統合推論（TIR）を適用したバージョンと適用しないバージョンの両方が利用可能です。本データセットは、8万5千件の厳選されたAoPS（Art of Problem Solving）問題と、26万2千件のコミュニティ提供のStackExchange-Math問題を統合し、構造化された競技問題と多様な実世界の数学的質問を組み合わせています。データセットの品質を評価するため、制御条件下での評価を実施しました。 Nemotron-Mathは、対応するAoPS問題において、従来のOpenMathReasoningを一貫して上回る性能を示しました。StackExchange-Mathの統合は、数学競技ベンチマークでの精度を維持しつつ、特にHLE-Mathにおいて堅牢性と汎化性能を大幅に向上させることが確認されています。効率的な長文コンテキスト学習を支援するため、シーケンシャル・バケット戦略を開発し、128Kトークンのコンテキスト長におけるファインチューニングを精度の大幅な低下なく2～3倍加速することに成功しました。総合的に、Nemotron-Mathは最先端の性能を実現し、Python TIRを適用した場合、AIME 2024および2025において100%のmaj@16精度を達成しています。

プロンプトとプログラム間での状態共有
Sharing State Between Prompts and Programs

Dec 16

ByEllie Y. Cheng, Logan Weber, Tian Jin, Michael Carbin

大規模言語モデル（LLM）の台頭は、新しいプログラミングの形態、すなわち自然言語プログラミングをもたらした。ユーザーは、LLMに対して自然言語処理、コード生成、推論などを実行するよう指示するプロンプトを書くことで、LLMが実行するための自然言語によるコード、すなわち「自然言語コード」を記述している。新たに登場した研究分野では、自然言語コードとPythonのような形式言語との間の相互運用性を実現しようとしている。本稿では、自然言語コードとプログラム状態の間の相互運用性を実現するために必要だった手作業を省く、新しいプログラミング抽象概念である「共有プログラム状態」を提案する。共有プログラム状態を用いることで、プログラマはプログラム変数への直接的な書き込み、プログラムオブジェクトを用いた計算、プログラム内での制御フローの実装を自然コードで記述できる。我々は、プログラミングシステムを拡張して自然コードをサポートする「自然関数インターフェース」を指定するためのスキーマを提示し、このスキーマを活用して共有プログラム状態を自然関数インターフェースとして規定する。この共有プログラム状態を、Nightjarプログラミングシステムに実装した。Nightjarにより、プログラマはPythonプログラムの状態を共有する自然コードを含むPythonプログラムを記述できるようになる。Nightjarプログラムは、手動で実装した場合と比較して、同等または高いタスク精度（+4～19%向上）を達成しつつ、コード行数を平均39.6%削減できることを示す。Nightjarを使用する際のトレードオフとして、実行時のオーバーヘッドが生じる可能性がある（手動実装の0.4～4.3倍の実行時間）。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Kling-Omni 技術レポート
Kling-Omni Technical Report

Dec 18

122

エージェント的AIの適応
Adaptation of Agentic AI

Dec 18

LLaDA2.0：拡散言語モデルを1000億パラメータにスケールアップ
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10

次埋め込み予測による強力な視覚学習
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18

BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu

StereoPilot: 生成的アプローチによる統合的かつ効率的なステレオ変換の学習
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18

ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen

Seedance 1.5 pro: ネイティブな音声-映像連成生成基盤モデル
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15

深度推定の基盤モデル：パノラマ深度推定のためのDepth Any Panoramas
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18

ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi

生成的リフォーカシング：単一画像からの柔軟なボケ制御
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18

ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

DeContextによる防御：拡散トランスフォーマーにおける安全な画像編集
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18

ByLinghui Shen, Mingyue Cui, Xingyi Yang

錬金術師：メタ勾配データ選択によるテキスト画像モデル学習の効率化
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18

ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao

世界はあなたのキャンバス：参照画像、軌跡、テキストを用いたプロンプト可能なイベントの描画
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18

ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen

潜在表現をグローバルおよびローカルな意味論で正則化する：もつれを解いた拡散モデル
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18

ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou

N3D-VLM：ネイティブ3Dグラウンディングによる視覚言語モデルの高精度な空間推論
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18

ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu

JustRL: シンプルなRLレシピによる15億パラメータLLMのスケーリング
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18

ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu

AdaTooler-V：画像と動画に対する適応的ツール利用
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18

ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue

EasyV2V：高品質な命令ベース動画編集フレームワーク
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18

ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei

FlashPortrait：適応的潜在予測による6倍高速な無限ポートレートアニメーション
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18

ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu

マルチモーダルRewardBench 2：インタリーブされたテキストと画像に対するオムニ報酬モデルの評価
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18

ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad

探索か搾取か：クリッピング、エントロピー、疑似報酬によるRLVRの再考
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18

ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin

RePlan：複雑な指示に基づく画像編集のための推論誘導型領域計画
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18

ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia

ModelTables: モデルに関するテーブルコーパス
ModelTables: A Corpus of Tables about Models

Dec 18

ByZhengyuan Dong, Victor Zhong, Renée J. Miller

VenusBench-GD：多様なグラウンディングタスクのための包括的マルチプラットフォームGUIベンチマーク
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18

ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen

聴覚による翻訳：大規模言語モデルへの音声モダリティ統合の有効性
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18

BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle

差異が重要である：能力ギャップの発見と是正のためのモデル監査
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18

ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu

インサイトマイナー：自然言語とのクロスドメインアライメントのための時系列分析データセット
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12

ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang