HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

31 papers found

ペンギン-VL: LLMベースの視覚エンコーダによるVLMの効率限界の探求
Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Mar 6

ByBoqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang

119

Vision Language Model (VLM) の開発は、主にモデルサイズのスケーリングに依存してきたが、これはスマートフォンやロボットなどの計算リソースが限られたモバイル・エッジデバイスへの展開を妨げている。本研究では、コンパクトな（例: 2B、8Bパラメータ）VLMの性能限界を探求する。我々は、最先端のVLMが大規模な対照事前学習（例: CLIP/SigLIP）で初期化された視覚エンコーダに依存しなければならないという従来の慣行に異議を唱える。ここには目的の不一致がある：識別性のために最適化された対照学習は、粗いカテゴリレベルの不変性を強制し、密なキャプション生成や複雑なVLM推論に必要な細かな視覚的手がかりを抑制してしまうのである。この問題を解決するため、視覚エンコーダをテキストのみのLLMから初期化するPenguin-VLを提案する。実験により、Penguin-Encoderが従来の対照事前学習に代わる優れた選択肢であり、マルチモーダル理解における視覚的忠実度とデータ効率の更高を実現することが明らかになった。様々な画像・動画ベンチマークにおいて、Penguin-VLは数学的推論では主要なVLM（例: Qwen3-VL）に匹敵する性能を発揮し、文書理解、視覚的知識、多視点動画理解などのタスクではそれらを凌駕する。特筆すべきは、これらの性能向上が軽量なアーキテクチャで達成されていることであり、性能の主な駆動力はモデルのスケーリングではなく、改良された視覚表現であることを示している。アブレーションスタディでは、Penguin-Encoderが対照事前学習済みエンコーダを一貫して上回り、密な知覚と複雑な推論に不可欠な細かな空間的・時間的手がかりを保持することが確認された。これにより、計算効率の良いVLMにおける強力な代替コンポーネントとなり、リソース制約のある環境での高性能化を可能にする。コード: https://github.com/tencent-ailab/Penguin-VL

BandPO: 信頼領域と比率クリッピングを確率対応バウンドで統合する大規模言語モデルの強化学習手法
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Mar 5

ByYuan Li, Bo Wang, Yufei Gao, Yuqian Yao, Xinyuan Wang, Zhangyue Yin, Xipeng Qiu

近接制約は大規模言語モデルの強化学習における安定性の基盤をなす。PPOの標準的なクリッピング機構は信頼領域の効率的な代替手段として機能するが、我々は決定的なボトルネックを特定した：固定境界は低確率行動の上方更新マージンを厳格に制約し、高アドバンテージを持つテール戦略を不均衡に抑制することで、急激なエントロピー崩壊を誘発する。この問題に対処するため、我々はBand-constrained Policy Optimization（BandPO）を提案する。BandPOは標準クリッピングをBandで置き換える。これはf-ダイバージェンスで定義される信頼領域を確率を考慮した動的クリッピング区間に射影する統一理論演算子である。理論分析により、Bandがこの探索ボトルネックを効果的に解決することを確認した。我々はこの写像を凸最適化問題として定式化し、大域的最適数値解を保証するとともに、特定のダイバージェンスに対する閉形式解を導出する。多様なモデルとデータセットを用いた大規模実験により、BandPOが標準クリッピングおよびClip-Higherを一貫して上回り、エントロピー崩壊を頑健に緩和することを実証した。

8トークンでの計画：潜在世界モデルのためのコンパクト離散トークナイザ
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Mar 5

ByDongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak

ワールドモデルは、行動や指示に条件付けられた環境ダイナミクスをシミュレートする強力な枠組みを提供し、行動計画や方策学習などの下流タスクを可能にします。近年のアプローチではワールドモデルを学習済みシミュレーターとして活用しますが、意思決定時計画への応用はリアルタイム制御において計算コストが過大となる課題があります。重要なボトルネックは潜在表現にあり、従来のトークナイザーは各観測を数百トークンに符号化するため、計画処理が低速かつリソース集約的になります。この問題に対処するため、本研究ではCompACTを提案します。これは各観測をわずか8トークンに圧縮する離散トークナイザーであり、計画に必要な本質的情報を保持しつつ計算コストを劇的に削減します。CompACTトークナイザーを組み込んだ行動条件付きワールドモデルは、数桁高速な計画処理で競争力のある計画性能を達成し、ワールドモデルの実世界展開に向けた実用的な一歩を提供します。

WildActor: 制約のないアイデンティティ保存型ビデオ生成
WildActor: Unconstrained Identity-Preserving Video Generation

Feb 28

ByQin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu

実用的な人間映像生成には、デジタルアクターが動的なショット、視点、動作にわたって厳密に一貫した全身の同一性を維持することが必要ですが、この設定は既存手法にとって依然として困難な課題です。従来手法は、身体レベルの一貫性を軽視した顔中心の動作に陥りやすいか、ポーズ固定により被写体が硬直したコピー＆ペーストの不自然さを生じる傾向があります。本稿では、制約のない視点と環境下での同一性一貫性を捉えるために設計された大規模人間映像データセットActor-18Mを提案します。Actor-18Mは、任意視点と正準三面図表現の両方を網羅する160万の映像と1800万の対応する人間画像で構成されています。Actor-18Mを活用し、任意視点条件付き人間映像生成のためのフレームワークWildActorを提案します。境界適応型モンテカルロサンプリング戦略と結合した非対称同一性保持注意機構を導入し、参照条件を限界効用に基づいて反復的に再重み付けすることで、均衡のとれた多様体カバレッジを実現します。提案するActor-Benchによる評価では、WildActorは多様なショット構成、大きな視点遷移、大幅な動作下においても身体の同一性を一貫して保持し、これらの困難な設定において既存手法を凌駕する結果を示しました。

推論モデルは思考の連鎖を制御するのに苦戦している
Reasoning Models Struggle to Control their Chains of Thought

Mar 5

ByChen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak

思考連鎖（CoT）監視は、現代の推論モデルの誤動作検出と動機理解における有望な手法です。しかし、モデルが自身のCoTで言語化する内容を制御できる場合、CoTの監視可能性を損なう可能性があります。この望ましくない能力——CoT制御性——を測定するため、CoT-Control評価スイートを導入しました。このスイートには、遺伝学の問題を「染色体」という単語を使用せずに推論するなど、CoT指示に従いながら問題を解決するタスクが含まれます。推論モデルは最終出力の制御性に比べてCoT制御性が著しく低いことが示されました。例えばClaude Sonnet 4.5は、CoTを制御できるのはわずか2.7%の場合であるのに対し、最終出力の制御では61.9%の成功率を示します。また、大規模モデルほどCoT制御性が高く、RLトレーニングの増加、推論時の計算量、問題難易度の上昇に伴って低下することも明らかになりました。CoT制御の失敗は、モデルがCoT監視を回避するインセンティブを与えられた場合（直接的要請ではなく）にも見られ、ただし監視されていることを伝えられた場合にはわずかに制御性が向上します。同様に、敵対的に最適化されたプロンプトによる制御性の誘発も、有意な向上には至りません。現在のところCoT制御性が監視可能性の失敗モードとなる可能性は低いと慎重ながら楽観的な見通しを得ました。しかし、低い制御性のメカニズムは十分に解明されていません。CoT監視可能性を維持する重要性を考慮し、フロンティア研究機関が将来のモデルにおけるCoT制御性を追跡することを推奨します。

言語モデル事前学習のための段階的残差ウォームアップ
Progressive Residual Warmup for Language Model Pretraining

Mar 5

ByTianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang

Transformerアーキテクチャは、現代の大規模言語モデル（LLM）の基盤をなすため、その事前学習の安定性と収束速度は中心的な関心事です。本論文では、連続的に積層された層間の論理的依存関係に着目し、言語モデル事前学習のためのProgressive Residual Warmup（ProRes）を提案します。ProResは「早期の層が先に学習する」という哲学を具現化し、各層の残差接続に0から1へ段階的に増加するスカラー値を乗算します。より深い層ほどウォームアップのステップ数を多く設定し、深層層が早期層の学習が安定するのを待ってから学習に貢献するように設計されています。様々なモデル規模、正規化手法、初期化手法を用いた事前学習実験を通じて、ProResの有効性を実証します。包括的分析により、ProResが事前学習を安定化させるだけでなく、独自の最適化軌道を導入し、より高速な収束、強力な一般化能力、優れた下流タスク性能を実現することを示します。コードはhttps://github.com/dandingsky/ProResで公開しています。

RoboMME: ロボット汎用ポリシーのためのメモリベンチマークと理解
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Mar 4

ByYinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai

メモリは、長期的な視点と履歴依存型のロボットマニピュレーションにおいて極めて重要である。このようなタスクでは、繰り返し動作のカウントや、一時的に遮蔽される物体の操作が頻繁に含まれる。近年の視覚言語行動（VLA）モデルはメモリ機構の組み込みを始めているが、その評価は限定的で非標準化された環境に留まっている。これにより、体系的な理解、比較、進捗測定が制限されている。これらの課題に対処するため、我々はRoboMMEを提案する：長期的で履歴依存のシナリオにおけるVLAモデルの評価と発展のための大規模標準化ベンチマークである。本ベンチマークは、時間的、空間的、物体的、手順的メモリを評価するよう注意深く設計された分類法に基づいて構築された16のマニピュレーションタスクで構成される。さらに、π0.5バックボーン上に構築された14のメモリ拡張VLAバリアントを開発し、複数の統合戦略にわたる様々なメモリ表現を体系的に検証した。実験結果から、メモリ表現の有効性はタスクに強く依存し、各設計が異なるタスクにおいて独自の利点と限界を示すことが明らかになった。動画とコードは当ウェブサイト https://robomme.github.io で公開されている。

動的チャンク拡散トランスフォーマー
Dynamic Chunking Diffusion Transformer

Mar 6

ByAkash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum

拡散トランスフォーマーは、静的なパッチ化操作によって生成された固定長のトークン系列として画像を処理する。この設計は有効ではあるが、画像には様々な詳細度の領域が存在すること、およびノイズ除去プロセスが初期タイムステップでは粗い構造から後期タイムステップでは細かい詳細へと進行することを無視し、低情報領域と高情報領域に均一な計算リソースを費やしている。本研究では、Dynamic Chunking Diffusion Transformer（DC-DiT）を提案する。DC-DiTは、拡散訓練とエンドツーエンドで学習されたチャンキング機構を用いて、2D入力をデータ依存的な方法で短いトークン列に適応的に圧縮する、学習可能なエンコーダ-ルータ-デコーダのスキャフォールドをDiTバックボーンに追加する。この機構は、均一な背景領域はより少ないトークンに、詳細豊富な領域はより多くのトークンに圧縮することを学習し、明示的な教師監督なしに意味のある視覚的セグメンテーションが出現する。さらに、拡散タイムステップを跨いで圧縮率を適応させることも学習し、ノイズの多い段階ではより少ないトークンを、細部が現れる段階ではより多くのトークンを使用する。クラス条件付きImageNet 256×256において、DC-DiTは、4倍および16倍の圧縮率で、パラメータ数が同等およびFLOPsが同等の両方のDiTベースラインに対して、FIDとInception Scoreを一貫して改善し、これがピクセル空間、ビデオ、3D生成へのさらなる応用の可能性を秘めた有望な技術であることを示す。精度に加えて、DC-DiTは実用的である：事前学習済みDiTチェックポイントから最小限の事後学習計算（最大8倍少ない訓練ステップ）でアップサイクル可能であり、他の動的計算手法と組み合わせることで生成FLOPsをさらに削減できる。

物理シミュレータインザループ動画生成
Physical Simulator In-the-Loop Video Generation

Mar 6

ByLin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt

拡散モデルに基づくビデオ生成技術は近年著しい進歩を遂げ、視覚的なリアリズムを大幅に向上させてきた。しかしながら、重力、慣性、衝突といった基本的な物理法則に従った生成には依然として課題が残る。生成されたオブジェクトはフレーム間で不自然に動いたり、非現実的な動態を示したり、物理的制約に違反したりすることが多く、AI生成ビデオのリアリズムと信頼性を制限している。本研究では、この課題を解決するため、物理シミュレータをビデオ拡散プロセスに組み込んだ新規フレームワーク「Physical Simulator In-the-loop Video Generation (PSIVG)」を提案する。PSIVGは、事前学習済み拡散モデルによって生成されたテンプレートビデオを出発点とし、4Dシーンと前景オブジェクトのメッシュを再構築し、物理シミュレータ内でそれらを初期化した後、物理的に一貫した軌道を生成する。これらのシミュレーション軌道は、ビデオ生成器を時空間的に物理的に整合性の高い動きへ導くために用いられる。さらに、オブジェクト移動中のテクスチャ一貫性を改善するため、シミュレータからのピクセル対応関係に基づいてテキスト及び特徴量の埋め込みを適応させるTest-Time Texture Consistency Optimization (TTCO)技術を提案する。包括的な実験により、PSIVGが視覚的品質と多様性を維持しつつ、現実世界の物理法則により忠実なビデオを生成することを実証する。プロジェクトページ: https://vcai.mpi-inf.mpg.de/projects/PSIVG/

マリオ: 大規模言語モデルを用いたマルチモーダルグラフ推論
Mario: Multimodal Graph Reasoning with Large Language Models

Mar 5

ByYuanfu Sun, Kang Li, Pengkang Guo, Jiajin Liu, Qiaoyu Tan

大規模言語モデル（LLM）の最近の進歩は、マルチモーダル推論に新たな可能性をもたらした。しかし、既存手法の多くは依然として、事前学習済み視覚言語モデル（VLM）に依存し、画像とテキストのペアを個別に符号化しており、実世界のマルチモーダルデータが自然に形成する関係構造を無視している。この問題意識から、各ノードがテキスト属性と視覚属性を持ち、エッジが構造的手がかりを提供するマルチモーダルグラフ（MMG）上での推論が動機付けられる。グラフトポロジーを保ちつつ、このような異種混合のマルチモーダル信号に対してLLMベースの推論を可能にするには、2つの重要な課題が生じる：弱いクロスモーダル一貫性の解決と、異種モダリティ選好の扱いである。これらを解決するため、我々はMarioを提案する。これは上述の2課題を同時に解決し、MMG上での効果的なLLMベース推論を可能にする統一フレームワークである。Marioは2つの革新的段階から構成される。第1に、グラフトポロジーに導かれたきめ細かいクロスモーダル対比学習を通じて、テキスト特徴量と視覚特徴量を共同で精緻化するグラフ条件付きVLM設計である。第2に、整列されたマルチモーダル特徴量をグラフ認識型命令ビューに組織化し、学習可能なルータを用いて、各ノードとその近傍に対してLLMに最も情報量の多いモダリティ構成を提示する、モダリティ適応型グラフ命令チューニング機構である。多様なMMGベンチマークにおける大規模実験により、Marioがノード分類とリンク予測の両タスクにおいて、教師あり及びゼロショットシナリオで一貫して最先端のグラフモデルを凌駕することを実証した。コードはhttps://github.com/sunyuanfu/Mario で公開予定である。

HiMAP-Travel: 長期的制約付き旅行のための階層型マルチエージェント計画
HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Mar 5

ByThe Viet Bui, Wenjun Li, Yong Liu

逐次型LLMエージェントは、予算や多様性要件のような厳格な制約を伴う長期計画において課題がある。計画が進行し文脈が増大するにつれ、これらのエージェントはグローバルな制約から逸脱していく。我々はHiMAP-Travelを提案する。これは戦略的調整と並列的な日次実行に計画を分割する階層型マルチエージェントフレームワークである。Coordinatorが日々のリソースを割り当て、Day Executorが並列独立して計画を実行する。これを実現する3つの鍵となるメカニズムがある：並列エージェント間で予算と一意性制約を強制するトランザクショナルモニター、実行不可能なサブ目標を拒否して再計画を促すバーゲニングプロトコル、そして役割条件付けを通じて全エージェントを駆動するGRPOで訓練された単一ポリシーである。TravelPlannerにおいて、Qwen3-8Bを用いたHiMAP-Travelは52.78%の検証精度と52.65%のテスト最終通過率（FPR）を達成した。同一モデル・訓練・ツールによる比較では、逐次型ベースラインDeepTravelを+8.67pp上回った。またATLASを+17.65pp、MTPを+10.0pp上回った。FlexTravelBenchのマルチターンシナリオでは、44.34%（2ターン）と37.42%（3ターン）のFPRを達成し、並列化によりレイテンシを2.5倍削減した。

EffectMaker：推論と生成を統合したカスタム視覚効果作成システム
EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Mar 6

ByShiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao

視覚効果（VFX）は映像コンテンツの表現力と創造性を高める上で不可欠であるが、高品質な効果の制作には通常、専門知識と高額な制作パイプラインが必要となる。既存のAIGCシステムは、効果特有のデータ不足や、超自然的または様式化された効果をモデリングする本質的な難しさから、VFX生成において重大な課題に直面している。さらに、これらのアプローチは効果ごとのファインチューニングを必要とすることが多く、新規VFXへの拡張性と一般化を大幅に制限している。本研究では、参照ベースのVFXカスタマイズを可能にする統一的な推論・生成フレームワークであるEffectMakerを提案する。EffectMakerは、マルチモーダル大規模言語モデルを用いて高水準の効果意味を解釈し、それらが対象被写体にどのように適応すべきかを推論する。一方、Diffusion Transformerはコンテキスト内学習を活用して参照動画から細かな視覚的手がかりを捕捉する。これら2つのコンポーネントが、意味的・視覚的双方向ガイダンス機構を形成し、効果ごとのファインチューニングなしで、正確で制御可能かつ効果に一貫した合成を実現する。さらに、一般化と拡張性を向上させるため、3,000のVFXカテゴリにわたる13万本の動画を含む最大級の高品質合成データセット「EffectData」を構築した。実験により、EffectMakerが最先端のベースラインを上回る視覚的品質と効果の一貫性を達成し、カスタマイズされたVFX生成のための拡張性と柔軟性を備えたパラダイムを提供することを示す。プロジェクトページ: https://effectmaker.github.io

π-StepNFT: フローベースVLAのオンライン強化学習における広い空間には細かいステップが必要
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

Mar 2

BySiting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang

Flow-based視覚言語行動（VLA）モデルは、具現化制御において優れた性能を発揮するが、多段階サンプリング時に扱いにくい尤度が生じ、オンライン強化学習を妨げる課題がある。本研究では、最適化ステップごとに単一のフォワードパスのみを必要とし、補助的な価値ネットワークを排除する、批評家および尤度不要のフレームワーク「boldsymbolπ-StepNFT」（段階的ネガティブ認識ファインチューニング）を提案する。我々は、より広い探索空間では、整合性のためのよりきめ細かい段階的ガイダンスが必要であることを明らかにした。実験では、π-StepNFTがLIBEROにおいて潜在能力を解放し、競争力のある少数ショット頑健性を達成した。さらに、ManiSkillにおいて優れた一般化性能を実現し、マルチモーダル特徴への過適合を防ぐことで、OODシナリオで価値ベースのベースラインを上回った。この特性は、複雑な実世界応用に向けたスケーラブルなソリューションとして有望である。

FlashPrefill: 超高速長文脈プレフィリングのための瞬時パターン発見と閾値処理
FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Mar 6

ByQihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He

長文脈モデリングは大規模言語モデルにおける重要な能力であるが、アテンションの二次計算量が依然として重大なボトルネックとなっており、特に計算集約的なプリフィル段階で顕著である。様々な疎アテンション手法が提案されているが、それらは検索遅延が大きいか、十分な疎性が得られないという課題を抱えている。本論文では、瞬時のパターン発見と閾値処理による超高速プリフィルを実現するFlashPrefillを提案する。FlashPrefillは高速ブロック検索技術を活用し、動的な垂直方向・斜め方向・ブロック疎アテンションパターンを同時に特定する。特に重要なのは、ソートやアテンションスコアの累積という過大なオーバーヘッドを回避しつつ、長裾分布を効果的に除去して疎性を高める動的閾値処理機構を導入した点である。大規模な評価により、FlashPrefillが256Kトークン系列で前例のない27.78倍の高速化を達成し、効率性において飛躍的進歩を実現することが実証された。既存手法が短文脈では効率低下するのとは異なり、FlashPrefillは4Kトークンという短い文脈長でも1.71倍の高速化を維持し、様々な系列長にわたる頑健性と実用性を証明している。

効率的な大規模言語モデル推論のための動的モデルルーティングとカスケード：サーベイ
Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Feb 23

ByYasmin Moslem, John D. Kelleher

多様な能力、コスト、ドメインを持つ大規模言語モデル（LLM）の急速な発展に伴い、推論時におけるインテリジェントなモデル選択の必要性が高まっている。日常的な問い合わせには小規模モデルで十分である一方、複雑なタスクではより高度な能力を持つモデルが要求される。しかし、静的なモデル配備では、入力されるクエリの複雑さやドメインを考慮できないため、パフォーマンスの低下やコスト増加を招く。この課題に対処するため、クエリの特性に基づいて適応的にモデルを選択する動的ルーティングシステムが登場している。本稿では、最先端の複数LLMルーティング及びカスケード手法に関する体系的分析を行う。単一モデル内でルーティングを行うMixture of Expertsアーキテクチャとは対照的に、我々は独立に訓練された複数のLLM間でのルーティングに焦点を当てる。クエリの難易度、人間の選好、クラスタリング、不確実性定量化、強化学習、マルチモーダル、カスケードなど、多様なルーティングパラダイムを網羅する。各パラダイムについて、代表的手法を分析し、主要なトレードオフを検討する。分類体系に加えて、ルーティングシステムを「決定のタイミング」「利用される情報」「計算方法」の3次元で特徴づける概念的枠組みを提案する。この視点は、実用的なシステムが運用上の制約の下で複数のパラダイムを統合した、しばしば複合的な構造を持つことを明らかにする。我々の分析は、効果的な複数LLMルーティングには相反する目的のバランス調整が不可欠であることを示す。最適なルーティング戦略の選択は、配備環境と計算資源の制約に依存する。適切に設計されたルーティングシステムは、モデル間の専門的能力を戦略的に活用し、効率性の向上を最大化することで、最も強力な単一モデルを上回る性能を発揮し得る。一方、多様なアーキテクチャ、モダリティ、アプリケーションに汎化するルーティング機構の開発には、未解決の課題が残されている。

DeepPresenter: エージェント型プレゼンテーション生成のための環境に根差したリフレクション
DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Feb 26

ByHao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

プレゼンテーション生成には、深い内容のリサーチ、一貫性のある視覚デザイン、観察に基づく反復的な改良が要求される。しかし、既存のプレゼンテーション生成エージェントは、事前に定義されたワークフローや固定テンプレートに依存することが多い。この問題に対処するため、我々はDeepPresenterを提案する。これは、多様なユーザー意図に適応し、効果的なフィードバック駆動の改良を可能にし、スクリプト化されたパイプラインを超えて一般化するエージェントフレームワークである。具体的には、DeepPresenterは、環境観察を用いた長期的な改良を支援するため、中間スライド成果物を自律的に計画、レンダリング、修正する。さらに、内部信号（例：推論トレース）に対する自己内省に依存するのではなく、我々の環境に根ざしたリフレクションは、知覚可能な成果物の状態（例：レンダリングされたスライド）に生成プロセスを条件付け、実行中にプレゼンテーション特有の問題を特定し修正することを可能にする。多様なプレゼンテーション生成シナリオを網羅する評価セットにおける結果は、DeepPresenterが最先端の性能を達成し、ファインチューニングされた9Bモデルが大幅に低コストで高い競争力を維持することを示している。本プロジェクトは以下で公開されている： https://github.com/icip-cas/PPTAgent

WorldCache: ヘテロジニアストークンキャッシングによる無償の世界モデル高速化
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Mar 6

ByWeilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu

拡散モデルに基づく世界モデルは、統一的な世界シミュレーションとして強力な可能性を示しているが、反復的なノイズ除去は、対話的な利用や長期的なロールアウトにおいて依然としてコストが高すぎる。特徴量キャッシュは学習なしで推論を高速化できるが、単一モーダルの拡散モデル用に設計されたポリシーは、世界モデル特有の2つの課題により、世界モデルへはうまく移行できないことがわかった。すなわち、マルチモーダル結合と空間的変動に起因するトークンの不均質性と、ごく少数の困難なトークンが誤差の増大を駆動する非一様な時間的ダイナミクスである。これらにより、均一なスキップは不安定になるか、過度に保守的になる。本研究では、拡散世界モデルに特化したキャッシュフレームワーク「WorldCache」を提案する。我々は、物理に基づいた曲率スコアを用いてトークンの予測可能性を推定し、急激な方向変化を示すカオス的なトークンに対してはエルミート補間による減衰予測子を適用する「曲率誘導型不均質トークン予測」を導入する。さらに、曲率で正規化された無次元のドリフト信号を蓄積し、ボトルネックとなるトークンがドリフトし始めたときのみ再計算を行う「カオス優先適応的スキップ」を設計する。拡散世界モデルを用いた実験により、WorldCacheはロールアウト品質を98%維持しながら、エンドツーエンドの速度を最大3.7倍まで向上させ、リソースが制約されるシナリオにおけるWorldCacheの大きな優位性と実用性を実証した。コードはhttps://github.com/FofGofx/WorldCacheで公開されている。

DreamCAD: 微分可能パラメトリック曲面を用いたマルチモーダルCAD生成のスケーリング
DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mar 5

ByMohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi

コンピュータ支援設計（CAD）は構造化され編集可能な幾何学的表現に依存しているが、既存の生成手法は、明示的な設計履歴や境界表現（BRep）ラベルを持つ小規模な注釈付きデータセットに制約されている。一方で、数百万に上る未注釈の3Dメッシュは未活用のままであり、スケーラブルなCAD生成の進展を妨げている。この問題に対処するため、我々はDreamCADを提案する。これはポイントレベルの教師信号から編集可能なBRepを直接生成するマルチモーダル生成フレームワークであり、CAD固有の注釈を必要としない。DreamCADは各BRepをパラメトリックパッチ（例：ベジエ曲面）の集合として表現し、微分可能なテッセレーション手法を用いてメッシュを生成する。これにより、3Dデータセットを用いた大規模な学習が可能となり、接続された編集可能な曲面の再構築を実現する。さらに、テキストからCADへの研究を推進するため、GPT-5を用いて生成された100万以上の記述を含む、史上最大のCADキャプションデータセットであるCADCap-1Mを導入する。DreamCADは、テキスト、画像、ポイントの各モダリティにおいてABCおよびObjaverseベンチマークで最先端の性能を達成し、幾何学的忠実度を向上させ、75%を超えるユーザー選好性を実現した。コードとデータセットは公開予定である。

τ-ナレッジ：非構造化ナレッジに基づく対話エージェントの評価
τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Mar 4

ByQuan Shi, Alexandra Zytek, Pedram Razavi, Karthik Narasimhan, Victor Barres

対話エージェントは、知識集約的な環境でますます導入されるようになっており、ユーザーとのライブ対話中に、大規模で非公開の非構造化コーパスからドメイン固有の知識を検索し適用することが、正しい動作に不可欠となっています。しかし、既存のベンチマークのほとんどは、検索とツール利用を個別に評価しており、非構造化データを用いた長期的な相互作用における現実的で完全に自律的な評価においてギャップが生じています。本研究では、外部の自然言語知識とツール出力を調整して検証可能かつポリシー準拠の状態変化を生み出すことが成功に不可欠な環境下でのエージェント評価のために、τ-Benchを拡張したτ-Knowledgeを提案します。新しいドメインであるτ-Bankingは、現実的なフィンテックカスタマーサポートのワークフローをモデル化しており、エージェントは約700の相互接続された知識文書を参照しながら、ツールを介した口座更新を実行しなければなりません。埋め込みベースの検索とターミナルベースの検索の両方において、高い推論リソースを割り当てられた最先端のモデルでさえ、合格率は約25.5%¹に留まり、信頼性は反復試行で急激に低下します。エージェントは、密接にリンクされた知識ベースから正しい文書を検索すること、および複雑な内部ポリシーを正確に推論することに苦労しています。全体として、τ-Knowledgeは、人間を対象とした導入環境で非構造化知識を統合するエージェントを開発するための現実的なテストベッドを提供します。

ウォークオン・スフィア法を用いた弱教師付きオペレータ学習
Operator Learning Using Weak Supervision from Walk-on-Spheres

Mar 1

ByHrishikesh Viswanath, Hong Chul Nam, Xi Deng, Julius Berner, Anima Anandkumar, Aniket Bera

ニューラルPDEソルバーの学習は、高コストなデータ生成や、高次導関数による困難な最適化地形を伴う物理情報ニューラルネットワーク（PINN）の不安定性によって、しばしばボトルネックが生じる。この問題に取り組むため、我々はモンテカルロ法を用いてPDEの解を確率過程として推定し、学習中の弱教師信号として利用する代替手法を提案する。球面上歩行法を活用し、WoSからの弱教師信号を用いて任意のニューラル演算子を訓練する学習手法、球面上歩行ニューラル演算子（WoS-NO）を導入する。PDEインスタンスの分布全体に対してモンテカルロ歩行のコストを分散化するため、WoSアルゴリズムからの確率的表現を利用し、学習中に安価でノイズの多いPDE解の推定値を生成する。これをデータ不要の物理情報付き目的関数として定式化し、ニューラル演算子がこれらの弱教師信号に対して回帰するように訓練することで、演算子がPDE群全体に対する一般化された解写像を学習できるようにする。この戦略は、高コストな事前計算データセットを必要とせず、メモリ集約的で不安定な高次導関数の損失関数計算を回避し、新しいPDEパラメータや領域へのゼロショット一般化を実証する。実験では、同じ学習ステップ数において、本手法は標準的な物理情報付き学習スキームと比較してL2誤差で最大8.75倍の改善、学習速度で最大6.31倍の改善、GPUメモリ消費量で最大2.97倍の削減を示した。コードはhttps://github.com/neuraloperator/WoS-NO で公開している。

nabla-Reasoner: 潜在空間におけるテスト時勾配降下法による大規模言語モデルの推論
nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Mar 5

ByPeihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang

大規模言語モデル（LLM）における推論時の計算リソース拡大は、前例のない推論能力の解放をもたらした。しかし、既存の推論時スケーリング手法は、オンラインポリシーを改善するために、非効率的で最適とは言えない離散探索アルゴリズムや試行錯誤的なプロンプト操作に依存する傾向がある。本論文では、nabla-Reasoner を提案する。これは、トークンの対数尤度に対する微分可能最適化をデコードループに統合し、その場でポリシーを改善する反復的生成フレームワークである。中核となる要素は微分可能テキスト最適化（DTO）であり、LLMの尤度と報酬モデルからの勾配信号を活用してテキスト表現を洗練させる。nabla-Reasoner はさらに、リジェクションサンプリングと高速化設計を組み込み、デコーディングの頑健性と速度向上を図っている。理論的には、報酬を最大化するためにサンプル空間で推論時に勾配降下法を実行することは、KL正則化強化学習によるLLMポリシーのアラインメントと双対関係にあることを示す。実験的には、nabla-Reasoner は難易度の高い数学的推論ベンチマークで20%超の精度向上を達成し、強力なベースラインと比較してモデル呼び出し回数を約10-40%削減する。全体として、本研究はテスト時におけるゼロ次探索から一次最適化へのパラダイムシフトを導入し、LLMの推論能力を増幅するための費用効果の高い経路を提供する。

拡散言語モデルのための強化学習の安定化
Stabilizing Reinforcement Learning for Diffusion Language Models

Mar 6

ByJianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu

Group Relative Policy Optimization（GRPO）は、学習後オート回帰（AR）言語モデルに対して極めて有効であるが、拡散大規模言語モデル（dLLM）への直接適用は報酬崩壊を引き起こすことが多い。我々はこの非互換性の要因を二つ特定した。第一に、GRPOは系列確率に基づく重要度比に依存するが、dLLMではこの確率が計算不能であり、（ELBOベースや平均場近似の尤度代理指標などによる）推定が必要となるため、本質的にノイズの多い比が得られる。第二に、標準GRPOの定式化は推定比を想定しておらず、条件付きクリッピングがモデル非依存の推定ノイジによって異常に回避されて勾配スパイクを生じる一方、固定グループサイズ正規化は高分散な比の推定下で勾配大きさの変動を増幅する。これらの効果が、政策ドリフトを促進し比の分散を更に増大させる自己強化型不安定ループを形成することを示す。このループを断ち切るため、我々はdLLM向けに調整されたGRPOの再定式化であるStableDRLを提案する。これは（i）外れ値誘発スパイクを抑制する無条件クリッピングと、（ii）更新をサンプル単位勾配の凸包内に制限する自己正規化を採用する。さらに、StableDRLを階段状アテンション機構によりブロック単位拡散モデルに拡張する。

検閲済み大規模言語モデルを秘匿知識抽出の自然な試験場として
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Mar 5

ByHelena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda

大規模言語モデルは、時に虚偽または誤解を招く応答を生成することがある。この問題に対する2つのアプローチとして、誠実性誘導（プロンプトや重みを修正してモデルが真実を答えるようにする）と虚偽検出（特定の応答が虚偽かどうかを分類する）が存在する。従来の研究では、嘘をつくよう特別に訓練されたモデルや情報を隠蔽するよう訓練されたモデルに対してこれらの手法を評価してきたが、こうした人為的な構築物は自然発生する不誠実性とは異なる可能性がある。我々は代わりに、中国の開発者によるオープンウェイトのLLMを研究対象とする。これらのモデルは政治的敏感なトピックを検閲するよう訓練されており、Qwen3モデルは法輪功や天安門抗議などの主題について頻繁に虚偽を生成する一方、時折正しく回答することから、抑制するよう訓練された知識を保持していることが示唆される。これをテストベッドとして、一連の誘導技術と虚偽検出技術を評価する。誠実性誘導については、チャットテンプレートなしのサンプリング、数ショットプロンプト、一般的な誠実性データへのファインチューニングが、真実の応答を最も確実に増加させた。虚偽検出については、検閲済みモデルに自身の応答を分類させるプロンプトが非検閲モデルの上限値に近い性能を示し、無関係なデータで訓練された線形プローブがより低コストな代替手段となった。最も強力な誠実性誘導技術は、DeepSeek R1を含む最先端のオープンウェイトモデルにも転移可能であった。特筆すべきは、いずれの技術も虚偽の応答を完全には排除できない点である。我々は全てのプロンプト、コード、会話記録を公開する。

PixARMesh: メッシュネイティブな自己回帰型単眼シーン再構成
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Mar 6

ByXiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

PixARMeshを紹介する。本手法は、単一のRGB画像から完全な3D室内シーンメッシュを直接、自己回帰的に復元する。従来の暗黙的な符号付き距離場と事後的なレイアウト最適化に依存する手法とは異なり、PixARMeshはオブジェクトのレイアウトと形状を統一モデル内で共同で予測し、一つのフォワードパスで首尾一貫したアーティスト品質のメッシュを生成する。メッシュ生成モデルの最近の進歩を基盤とし、点群エンコーダを、ピクセル位置に合わせた画像特徴量とクロスアテンションによる大域的なシーン文脈で拡張することで、単一画像からの正確な空間推論を可能にする。シーンは、文脈、ポーズ、メッシュを含む統一されたトークンストリームから自己回帰的に生成され、高精細な形状を持つコンパクトなメッシュが得られる。合成データセットと実世界データセットによる実験では、PixARMeshが軽量で高品質なメッシュを生成し、下流アプリケーションで即座に利用可能な状態で、最先端の復元品質を達成することを示している。

物理情報に基づく粘性価値表現
Physics Informed Viscous Value Representations

Feb 26

ByHrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera

オフライン目標条件付き強化学習（GCRL）は、事前に収集された静的なデータセットから目標条件付き方策を学習する。しかし、状態-行動空間の限られたカバレッジにより、正確な価値推定は依然として課題である。近年の物理情報に基づくアプローチは、アイコナール方程式のような一階偏微分方程式（PDE）上で定義された正則化を通じて、価値関数に物理的・幾何学的制約を課すことでこの問題に対処しようとしている。しかし、これらの定式化は、複雑で高次元の環境では不適切問題となり得る。本研究では、ハミルトン-ヤコビ-ベルマン（HJB）方程式の粘性解から導出された物理情報正則化を提案する。物理に基づく帰納バイアスを提供することにより、本手法は学習プロセスを最適制御理論に根ざさせ、価値反復中の更新を明示的に正則化し境界付ける。さらに、ファインマン-カッツの定理を活用してPDEの解を期待値として再構成し、高次勾配における数値的不安定性を回避する、扱いやすいモンテカルロ推定を可能にする。実験により、本手法が幾何学的整合性を改善し、ナビゲーションや高次元の複雑なマニピュレーションタスクに広く適用可能であることを示す。オープンソースコードは https://github.com/HrishikeshVish/phys-fk-value-GCRL で公開されている。

SLER-IR: オールインワン画像復元のための球面レイヤーワイズ専門家ルーティング
SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Mar 6

ByPeng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren

多様な劣化条件下での画像復元は、特徴干渉や専門家の特化不足により、統合型オールインワンフレームワークにとって依然として課題である。本論文では、ネットワーク層を横断して専門家を動的に活性化する球面層別専門家ルーティングフレームワークSLER-IRを提案する。信頼性の高いルーティングを実現するため、対照学習を用いた球面一様劣化埋め込みを導入し、線形埋め込み空間における幾何学的バイアスを排除して劣化表現を超球面上に写像する。さらに、大域-局所粒度融合（GLGF）モジュールにより、大域的セマンティクスと局所的劣化手がかりを統合し、空間的非一様な劣化と訓練-テスト間の粒度ギャップに対処する。3タスクおよび5タスクベンチマークにおける実験により、SLER-IRがPSNRとSSIMの両方において最先端手法を一貫して上回ることを示す。コードとモデルは公開予定である。

ロボット操作ポリシーのための行動空間設計の解明
Demystifying Action Space Design for Robotic Manipulation Policies

Feb 26

ByYuchun Feng, Jinliang Zheng, Zhihao Wang, Dongxiu Liu, Jianxiong Li, Jiangmiao Pang, Tai Wang, Xianyuan Zhan

動作空間の設計は、模倣に基づくロボット把持ポリシー学習において極めて重要な役割を担い、ポリシー学習の最適化環境を根本的に形成する。近年の進歩は主に学習データの大規模化やモデル容量の拡大に焦点が当てられてきたが、動作空間の選択は依然としてアドホックな経験則や従来の設計に基づいて行われており、ロボットポリシー設計の理念に関する理解が不十分である。この問題を解決するため、我々は大規模かつ体系的な実証研究を実施し、動作空間がロボットポリシー学習に有意義かつ複雑な影響を及ぼすことを確認した。時間軸と空間軸に沿って動作設計空間を分析することで、これらの選択がポリシーの学習可能性と制御安定性にどのように影響するかの構造的な分析を可能にした。両腕ロボットを用いた13,000回以上の実世界での動作実験と、4つのシナリオにわたる500以上の学習済みモデルの評価に基づき、絶対表現と差分表現、関節空間とタスク空間のパラメータ化のトレードオフを検証した。大規模実験の結果から、ポリシーに差分動作の予測をさせる設計が一貫して性能向上に寄与すること、関節空間表現とタスク空間表現にはそれぞれ制御安定性と一般化に優れるという相補的な利点があることが示唆された。

IF-RewardBench：命令追従評価のための審査モデルベンチマーク
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Mar 5

ByBosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang

命令追従は大規模言語モデル（LLM）の基礎的な能力であり、その改善は評価モデルからのスケーラブルで正確なフィードバックに依存している。しかし、既存のメタ評価ベンチマークには、データカバレッジの不足や、モデル最適化シナリオと整合しない過度に単純化されたペアワイズ評価パラダイムといった課題があるため、現在の評価モデルの命令追従における信頼性は十分に検証されていない。この問題に対処するため、我々は多様な命令タイプと制約タイプを網羅した包括的な命令追従メタ評価ベンチマークIF-RewardBenchを提案する。各命令に対して、命令追従の質に基づく複数応答間の全ペアワイズ選好関係を含む選好グラフを構築する。この設計により、モデルアライメントの指導に不可欠な、複数応答を順位付けする評価モデルの能力を評価するリストワイズ評価パラダイムを実現する。IF-RewardBenchを用いた大規模実験により、現在の評価モデルに重大な欠陥があることが明らかになり、既存ベンチマークと比較して下流タスク性能とのより強い正の相関が達成されることを示す。コードとデータはhttps://github.com/thu-coai/IF-RewardBenchで公開している。

拡散生成のFIDを予測可能にする再構成FID
Making Reconstruction FID Predictive of Diffusion Generation FID

Mar 5

ByTongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang

VAEの再構成FID（rFID）と潜在拡散モデルの生成FID（gFID）の相関が低いことはよく知られている。本研究では、gFIDと強い相関を示すrFIDの簡易な変種である、補間FID（iFID）を提案する。具体的には、データセットの各要素について、潜在空間内での最近傍点を取得し、それらの潜在表現を補間する。その後、補間された潜在変数をデコードし、デコードされたサンプルと元のデータセットとの間のFIDを計算する。さらに、rFIDとgFIDの相関が低いという主張を精緻化し、rFIDが拡散モデルのリファインメント段階でのサンプル品質と相関するのに対し、iFIDはナビゲーション段階でのサンプル品質と相関することを示す。加えて、拡散モデルの一般化と幻覚に関する結果と関連付けることで、iFIDがgFIDと良好に相関する理由、および再構成指標がgFIDと負の相関を持つ理由について説明する。実験により、iFIDは拡散モデルのgFIDとの強い相関（ピアソンの線形相関係数およびスピアマンの順位相関係数が約0.85）を示す初の指標であることを実証する。ソースコードはhttps://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFIDで公開されている。

グリッドを超えて：解析された視覚的文書表現を用いたレイアウト情報を考慮したマルチベクトル検索
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Mar 2

ByYibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu

視覚的に豊富な文書の真価を引き出すには、テキストだけでなく複雑なレイアウトも理解する検索システムが不可欠であり、これは視覚的文書検索（VDR）の中核的課題である。既存のマルチベクトルアーキテクチャは強力ながら、深刻なストレージのボトルネックに直面しており、埋め込みの統合、枝刈り、抽象トークンの利用といった最適化手法は、性能の犠牲や重要なレイアウト情報の無視を伴わずにこの問題を解決できていない。この課題に対処するため、我々はColParseを提案する。これは文書解析モデルを活用してレイアウト情報を反映した少数のサブ画像埋め込みを生成し、それらをページ全体のベクトルと融合させることで、コンパクトかつ構造を意識したマルチベクトル表現を構築する新たなパラダイムである。大規模な実験により、本手法がストレージ要件を95%以上削減すると同時に、多数のベンチマーク及び基盤モデルにおいて大幅な性能向上をもたらすことが実証された。ColParseは thus、マルチベクトル検索の細粒度な精度と大規模展開の現実的要求との間の重要な隔たりを埋め、効率的で解釈可能なマルチモーダル情報システムへの新たな道筋を提示する。

層ごと、モジュールごと：ViTの最適なOOD検出には両方を選択せよ
Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Mar 5

ByAmbroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

近年の研究では、ファウンデーションモデルの中間層が、最終層よりも識別性の高い表現を生成することが観察されている。この現象は当初、自己回帰的事前学習に起因すると考えられていたが、教師あり学習や識別的な自己教師あり学習目標で訓練されたモデルでも確認されている。本論文では、事前学習済みVision Transformerにおける中間層の振る舞いを分析する包括的研究を行う。多様な画像分類ベンチマークで実施した大規模な線形 probing 実験を通じて、事前学習データと下流データ間の分布シフトが、深い層での性能低下の主原因であることを明らかにする。さらに、モジュールレベルでの詳細分析を実施した。その結果、トランスフォーマーブロックの出力に対する標準的な probing は最適ではなく、フィードフォワードネットワーク内部の活性化を probing することが分布シフトが顕著な場合に最高の性能を発揮すること、一方でマルチヘッド自己注意モジュールの正規化出力はシフトが弱い場合に最適であることを発見した。