ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

スキル1:強化学習によるスキル拡張エージェントの統合的進化
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

持続的スキルライブラリにより、言語モデルエージェントは成功した戦略をタスク横断的に再利用できる。このライブラリを維持するには、3つの連動した能力が求められる。エージェントは関連するスキルを選択し、実行中にそれを活用し、経験から新たなスキルを蒸留する。既存手法ではこれらの能力を個別に、あるいは異なる報酬源で最適化するため、部分的な進化と矛盾が生じる。我々はSkill1を提案する。これは単一のポリシーを訓練し、スキル選択・活用・蒸留を共有のタスク成果目標に向けて共進化させるフレームワークである。ポリシーはスキルライブラリを検索するクエリを生成し、候補を再ランクして選択し、それを条件としてタスクを解決し、軌跡から新たなスキルを蒸留する。学習は単一のタスク成果信号から導出される。その低周波トレンドは選択を、高周波変動は蒸留をそれぞれ評価する。ALFWorldとWebShopでの実験により、Skill1が従来のスキルベース手法および強化学習ベースラインを上回ることを示す。訓練ダイナミクスは3つの能力の共進化を確認し、 ablation実験ではいずれの評価信号を除去しても進化が劣化することを示す。

2

意味的類似性を超えて:直接コーパス相互作用によるエージェント検索のための検索手法の再考
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

現代の検索システムは、語彙的であれ意味的であれ、コーパスを単一のトップk検索ステップに圧縮する固定的な類似性インターフェースを通じて公開しています。この抽象化は効率的ですが、エージェント型検索においてはボトルネックとなります。厳密な語彙的制約、疎な手がかりの結合、局所的な文脈チェック、多段階の仮説精緻化は、従来の既製検索システムを呼び出すだけでは実装が困難であり、早期に除外された証拠は強力な下流の推論によって回復できません。エージェント型タスクはこの制限をさらに悪化させます。なぜなら、エージェントは中間エンティティの発見、弱い手がかりの組み合わせ、部分的な証拠観測後の計画修正など、複数のステップを調整する必要があるためです。 この制限に対処するため、私たちは直接コーパスインタラクション(DCI)を研究します。これは、エージェントが埋め込みモデル、ベクトルインデックス、検索APIを一切使用せず、汎用ターミナルツール(grep、ファイル読み込み、シェルコマンド、軽量スクリプトなど)で生のコーパスを直接検索する手法です。このアプローチはオフラインインデックス作成を必要とせず、進化するローカルコーパスに自然に適応します。IRベンチマークとエンドツーエンドのエージェント型検索タスクにおいて、このシンプルな設定は複数のBRIGHTおよびBEIRデータセットで強力なスパース、デンス、リランキングベースラインを大幅に上回り、従来の意味的検索器に依存せずにBrowseComp-PlusおよびマルチホップQAで高い精度を達成します。 私たちの結果は、言語エージェントが強力になるにつれて、検索品質が推論能力だけでなく、モデルがコーパスと相互作用するインターフェースの解像度にも依存することを示しています。DCIはこのようなエージェント型検索のための、より広範なインターフェース設計空間を開くものです。

3

連続潜在拡散言語モデル
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

大規模言語モデルは自己回帰的パラダイムの下で顕著な成功を収めてきたが、高品質なテキスト生成は必ずしも固定された左から右への順序に縛られる必要はない。既存の代替手法は、生成効率、スケーラブルな表現学習、効果的な大域的意味モデリングを同時に達成することに依然として苦戦している。本論文では、階層的情報分解を通じてテキスト生成を再定義する階層的潜在拡散言語モデル「Cola DLM」を提案する。Cola DLMはまずText VAEで安定したテキスト-潜在変数マッピングを学習し、ブロック因果DiTで連続潜在空間内の大域的意味事前分布をモデル化し、最後に条件付きデコーディングによりテキストを生成する。統一的なマルコフ経路の観点から、その拡散過程はトークンレベルの観測復元ではなく潜在事前分布の輸送を実行することで、大域的意味構成と局所的なテキスト実現を分離する。この設計はより柔軟な非自己回帰的帰納バイアスをもたらし、連続空間における意味圧縮と事前分布適合を支援し、他の連続モダリティへの自然な拡張を可能にする。4つの研究課題、8つのベンチマーク、厳密に調整された約20億パラメータの自己回帰モデルおよびLLaDAベースライン、約2000 EFLOPsに至るスケーリング曲線にわたる実験を通じて、我々はCola DLMの効果的な全体構成を特定し、テキスト生成におけるその強力なスケーリング挙動を検証する。総合的に、結果は階層的連続潜在事前分布モデリングが厳密なトークンレベル言語モデリングに対する原理に基づく代替手法であることを立証する。このアプローチでは、生成品質とスケーリング挙動が尤度よりもモデル能力をよりよく反映するとともに、離散テキストと連続モダリティを横断する統一モデリングへの具体的な道筋を示唆している。

4

MiA-Signature: 長文脈理解のための大域的活性化の近似
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

認知科学における研究の蓄積は、報告可能な意識的アクセスが分散記憶システム全体でのグローバル・イグニッション(大域的火付け)と関連する一方、そのような活性化は個人が活性化された内容全てに直接アクセスしたり列挙したりできないため、部分的にしかアクセス不能であることを示唆している。この緊張関係は、認知が下流処理への活性化の大域的影響を近似するコンパクトな表現に依存しているという可能性を示唆する。この着想に基づき、我々はクエリによって誘発される大域的活性化パターンの圧縮表現である「マインドスケープ活性化シグネチャ(MiA-Signature)」の概念を提案する。大規模言語モデル(LLM)システムでは、これは活性化されたコンテキスト空間をカバーする高レベル概念のサブモジュラ性に基づく選択により具体化され、作業記憶を用いた軽量な反復的更新によって任意に洗練される。得られたMiA-Signatureは、完全な活性化状態の効果を近似しつつ計算量的に扱いやすい条件付け信号として機能する。MiA-SignatureをRAG(検索拡張生成)システムとエージェントシステムの両方に統合することで、複数の長文脈理解タスクにおいて一貫した性能向上が得られる。

5

SemEval-2026 Task 8におけるRaguTeam:忠実なマルチターン応答生成のための判事オーケストレーション型LLMアンサンブルにおけるメノとその仲間たち
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

SemEval-2026 Task~8: MTRAGEval の Task~B(参照文書付き生成課題)における優勝システムを紹介します。我々の手法は、7つの大規模言語モデルと2種類のプロンプト変種からなる異種アンサンブルであり、GPT-4o-mini 判定器がインスタンスごとに最適な候補を選択します。当システムは26チーム中1位となり、条件付き調和平均0.7827を達成、最強ベースライン(gpt-oss-120b, 0.6390)を上回りました。アブレーション研究により、モデルファミリー・規模・プロンプト戦略の多様性が重要であり、アンサンブルが単一モデルを一貫して凌駕することが示されました。また、強力なコストパフォーマンス比を持つドメイン適応型7Bモデル Meno-Lite-0.1 を提案し、MTRAGEval の注釈限界と改善方向について分析します。コードは公開されています: https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE: 拡散RLのためのマルチアスペクト報酬バランス
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

強化学習によるファインチューニングは、拡散モデルを人間の選好に合わせるための主流手法となっている。しかし、画像評価は本質的に多次元的な課題であり、複数の評価基準を同時に最適化する必要がある。既存手法では、複数の報酬を扱う際に、報酬ごとに特化モデルを訓練する、重み付き和報酬 R(x)=Σ_k w_k R_k(x) を最適化する、または手作りの段階的スケジュールで順次ファインチューニングするといった方法が取られてきた。これらのアプローチは、すべての報酬で共同訓練可能な統一モデルを生成できないか、手動調整が煩雑な逐次訓練を必要とする。我々は、この問題の原因が単純な重み付き和報酬の集約にあることを明らかにした。この手法はサンプルレベルのミスマッチに悩まされる。なぜなら大半のロールアウトが特定の報酬次元には情報豊富だが他の次元には無関係な特化サンプルであり、重み付き和がこれらの監督信号を希釈してしまうためである。この問題を解決するため、我々はMARBLE(Multi-Aspect Reward BaLancE)を提案する。これは勾配空間最適化フレームワークであり、各報酬に対して独立したアドバンテージ推定量を維持し、報酬ごとの方策勾配を計算した後、二次計画問題を解くことで手動調整なしで単一の更新方向に調和させる。さらに、DiffusionNFTで用いられる損失関数のアフィン構造を利用した償却定式化を提案し、ステップ当たりの計算コストをK+1回の逆伝播から単一報酬ベースラインに近いコストに削減するとともに、平衡係数にEMA平滑化を適用して一時的なバッチ変動による更新の不安定性を抑制する。5つの報酬を用いたSD3.5 Mediumでの実験では、MARBLEは5つの報酬次元すべてを同時に改善し、最悪の調整報酬における勾配コサイン類似度を、重み付き和ではミニバッチの80%で負だった値から一貫して正に転換させ、ベースライン訓練の0.97倍の速度で動作することを実証した。

7

想像力を信じる時:世界行動モデルのための適応的行動実行
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

World Action Models (WAM) は、将来の視覚観測と将来の行動を共同で予測することで、ロボットマニピュレーションの有望なパラダイムとして最近注目を集めている。しかし、現在のWAMは通常、各モデル推論後に固定数の予測行動を実行するため、想像された将来が実際の物理的な展開と一致しているかどうかをロボットが認識できないままとなる。本研究では、適応型WAM実行を将来-現実検証問題として定式化する:WAMが予測する将来の信頼性が高い場合はロボットはより長く動作を継続し、現実が想像から逸脱した場合は早期に再計画すべきである。この目的のために、我々はFuture Forward Dynamics Causal Attention (FFDC) を提案する。これは、予測された将来の行動、予測された視覚的ダイナミクス、実際の観測、および言語指示を共同で推論し、残りの行動展開が依然として信頼できるかどうかを推定する軽量な検証器である。FFDCは、予測と観測の一貫性に基づいて適応的な行動チャンクサイズを実現し、長期的な実行の効率性を維持しながら、接触が頻繁な局面や困難な段階での応答性を回復させる。さらに、適応的実行のための長期的軌道カバレッジを改善するために、Mixture-of-Horizon Trainingを導入する。RoboTwinベンチマークおよび実世界での実験により、本手法が強力なロバスト性と効率性のトレードオフを達成することを実証した:RoboTwinでは、WAMの前方パスを69.10%、実行時間を34.02%削減し、ショートチャンクベースラインと比較して成功率を2.54%向上させた;実世界実験では、成功率を35%向上させた。

8

数ステップ拡散蒸留のための連続時間分布マッチング
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

ステップ蒸留は拡散モデルの高速化における主要技術として確立され、その中でも分布マッチング蒸留(DMD)と一貫性蒸留が代表的なパラダイムである。一貫性手法は完全なPF-ODE軌道に沿った自己一貫性を強化してクリーンデータ多様体への誘導を図るのに対し、従来のDMDは事前定義された離散タイムステップにおける疎な教師信号に依存している。この制限的な離散時間定式化と逆KLダイバージェンスのモード追求特性は、視覚的アーティファクトや過度に平滑化された出力を生じやすく、視覚的忠実度を回復するためにGANや報酬モデルといった複雑な補助モジュールを必要とすることが多い。本研究では、連続時間分布マッチング(CDM)を初めて提案し、DMDフレームワークを離散的な固定点最適化から連続最適化へ移行させる。CDMは2つの連続時間設計によってこれを実現する。第一に、固定離散スケジュールをランダム長の動的連続スケジュールに置き換え、分布マッチングが少数の固定点ではなくサンプリング軌道上の任意の点で強化されるようにする。第二に、学生モデルの速度場によって補外された潜在変数に対して能動的な軌道外マッチングを行う連続時間整合目標を提案し、汎化性能の向上と微細な視覚的詳細の保持を図る。SD3-MediumやLongcat-Imageを含む様々なアーキテクチャでの大規模実験により、CDMが複雑な補助目標に依存することなく、少数ステップ画像生成において極めて競争力の高い視覚的忠実度を実現することが実証された。コードはhttps://github.com/byliutao/cdmで公開されている。

9

SkillOS:自己進化エージェントのためのスキルキュレーション学習
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

LLMベースのエージェントはストリーミングタスクの処理にますます導入されているが、過去のインタラクションから学習しない単発の問題解決者にとどまることが多い。経験から抽出された再利用可能なスキルは自己進化の自然な基盤を提供するが、高品質なスキルキュレーションが主要なボトルネックとなる。既存のアプローチは、手動によるスキルキュレーションに依存するか、ヒューリスティックなスキル操作を規定するか、短期的なスキル操作の訓練に留まっている。しかし、間接的で遅延したフィードバックから複雑な長期的なキュレーションポリシーを学習するには依然として課題がある。この課題に取り組むため、我々は自己進化エージェントにおけるスキルキュレーション学習のための経験駆動型RLトレーニング手法であるSkillOSを提案する。SkillOSは、スキルを検索して適用する凍結されたエージェントエクゼキュータと、蓄積された経験から外部のSkillRepoを更新する訓練可能なスキルキュレータを組み合わせる。キュレーションへの学習信号を提供するため、複合報酬を設計し、スキル関連のタスク依存関係に基づいてグループ化されたタスクストリームで訓練を行う。これにより、初期の軌跡がSkillRepoを更新し、後続の関連タスクがこれらの更新を評価する。マルチターンのエージェントタスクとシングルターンの推論タスクの両方において、SkillOSは効果性と効率性の両面でメモリ不使用のベースラインおよび強力なメモリベースのベースラインを一貫して上回り、学習されたスキルキュレータは異なるエクゼキュータ基盤やタスク領域にわたって一般化する。さらなる分析により、学習されたキュレータはより標的化されたスキル使用を生み出し、SkillRepo内のスキルは時間の経過とともに高次メタスキルをエンコードするより豊かに構造化されたMarkdownファイルへと進化することが示された。

10

ナンセンスが役立つ:プロンプト空間の摂動が推論探索を拡大する
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

検証可能な報酬を用いた強化学習、特にGroup Relative Policy Optimization(GRPO)は、大規模言語モデル(LLM)の推論能力を大幅に進歩させてきた。しかし、複雑なタスクにおいて、GRPOは頻繁に「ゼロアドバンテージ問題」に悩まされる。すなわち、あるクエリに対する全てのサンプリングされたロールアウトが失敗した場合、相対的アドバンテージがゼロに崩壊する。その結果、モデルはこれらの問題に対する効果的な訓練信号を失い、訓練データと計算リソースが浪費される。これらの問題に対して単純にサンプリング数を増やすことは一般的な対策であるが、静的なサンプリングポリシーは本質的に推論の探索を制約し、成功率を限定してしまう。本論文では、この探索のボトルネックを打破するための、簡潔でありながら効果的な訓練フレームワークであるLorem Perturbation for Exploration(LoPE)を提案する。我々は、タスクと無関係なプロンプト空間への摂動が、モデルの出力分布を十分に変化させ、難問に対する直交的な推論経路を開放し得ると仮定する。具体的には、LoPEは再サンプリング前に、Lorem Ipsum語彙(擬似ラテン語のプレースホルダーテキスト)から確率的に組み立てられたシーケンスをプロンプトの先頭に付加する。1.7B、4B、7Bモデルを用いた実験により、LoPEが元のプロンプトを用いた再サンプリングを有意に上回ることを実証する。さらなる分析により、低いパープレキシティを持つ他のラテンベースのランダムシーケンスも有効な摂動となり得ることが明らかになった。我々の結果は、LLM強化学習における探索範囲の拡大に対する強力なベースラインとしてLoPEを確立するものである。

11

大規模基盤モデルにおける音声視覚知能
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

視聴覚知能(AVI)は、聴覚モダリティと視覚モダリティを架橋し、マルチモーダルな現実世界において知覚・生成・対話可能な機械を実現する人工知能の中心的なフロンティアとして台頭してきた。大規模基盤モデルの時代において、音声と視覚の統合的モデリングは、動的で時間に根ざした信号に対する理解のみならず、制御可能な生成や推論のためにも、その重要性を増している。MetaのMovieGenやGoogleのVeo-3などの最近の進歩は、大規模なマルチモーダルデータから学習する統合的な音声-視覚アーキテクチャに対する産業界と学界の関心の高まりを象徴している。しかし、急速な進展にもかかわらず、研究文献は多様なタスク、一貫性のない分類体系、異質な評価手法に分散しており、体系的な比較や知見の統合を妨げている。本サーベイは、大規模基盤モデルの観点からAVIを包括的にレビューする初の試みである。我々は、理解(例:音声認識、音源定位)から生成(例:音声駆動ビデオ合成、ビデオから音声への生成)、対話(例:対話型、具身化、あるいはエージェント型インターフェース)に至る広範なAVIタスク群を網羅する統一的な分類体系を確立する。モダリティのトークン化、クロスモーダル融合、自己回帰型および拡散モデルベースの生成、大規模事前学習、指示チューニング、選好最適化といった方法論的基礎を統合的に整理する。さらに、代表的なデータセット、ベンチマーク、評価指標を精選し、タスクファミリー間での構造化された比較を提供するとともに、同期性、空間推論、制御性、安全性における未解決の課題を明らかにする。本サーベイは、この急速に拡大する分野を一貫した枠組みに統合することにより、大規模AVIの将来研究における基礎的参考文献となることを目指す。

12

StraTA: 戦略的軌道抽象化による能動的強化学習の促進
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

大規模言語モデル(LLM)は対話型エージェントとしてますます利用されているが、長期的な意思決定のための最適化は依然として困難である。これは、現在の手法が主に純粋な反応型であるため、長い軌跡における探索と信用割り当ての両方が弱まってしまうためである。本研究では、戦略的軌道抽象化(StraTA)を提案する。これは、エージェント強化学習(RL)に明示的な軌道レベルの戦略を導入するシンプルなフレームワークである。StraTAは、初期タスク状態からコンパクトな戦略をサンプリングし、その後の行動をその戦略に条件付け、階層型GRPOスタイルのロールアウト設計により戦略生成と行動実行を共同で訓練する。さらに、多様な戦略ロールアウトと批判的自己判断によって強化されている。ALFWorld、WebShop、SciWorldにおける実験により、StraTAが強力なベースラインと比較して、サンプル効率と最終性能の両方を一貫して向上させることが示された。StraTAは、ALFWorldで93.1%、WebShopで84.2%の成功率を達成した。SciWorldでは、StraTAは63.5%の総合スコアを獲得し、最先端のクローズドソースモデルを上回った。

13

専門家エージェントによる自動研究が、効果的で非自明な学習レシピを開発
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

我々は、外部測定によって駆動される閉じた実証ループとしての自動研究を探求する。各投稿トライアルは、仮説、実行可能なコード編集、評価者が所有する結果、そして次の提案を形成するフィードバックを含む。出力は生成された論文や単一のモデルチェックポイントではなく、提案、コード差分、実験、スコア、失敗ラベルからなる監査可能な軌跡である。我々はこのループを、レシピ表面を分割しトライアル間で測定された系統を共有する専門家エージェントによって具現化する。中核的な実証的発見は、系統フィードバックによりエージェントがクラッシュ、予算超過、サイズ失敗、精度ゲート未達を含む評価結果を、単発の提案ではなく後続のプログラムレベルでのレシピ編集に転換できる点である。一度限りの設定と起動後の1,197件のヘッドラントライアルに加え600件のParameter Golf対照試験において、人間は提案の選択、レシピ編集、スコアの上書き、失敗した試験の修復を探索過程中に行わなかった。3つのヘッドランでは、同一の投稿トライアルループが、Parameter Golfの検証bpbを0.81%削減し、NanoChat-D12 COREを38.7%向上させ、CIFAR-10 Airbench96のウォールクロック時間を4.59%短縮した(各タスクは独自の外部評価器と合法性チェックで測定)。トレースには、157件のヘッドラン投稿に対する厳格なアーキテクチャ領域監査や、NanoChatのアテンションカーネルパス変更といったプログラム書き換えが含まれる。この範囲内でループは自律的にコードを記述し、実験を投稿し、フィードバックを吸収し、各環境内で既知技術を適用・結合し、公開開始レシピを改善する。

14

A^2TGPO:適応的ターンレベルクリッピングによるエージェンシックターングループ方策最適化
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

エージェンシック大規模言語モデル(LLM)の強化学習では、通常、スパースで軌道レベルの結果報酬に依存しており、マルチターン相互作用内における個々のツール呼び出しの貢献度を評価することが困難である。このような過程における信用割り当てに対する既存のアプローチは、追加のコストを導入する外部の過程報酬モデルに依存するか、あるいは軌道の多様性を制約しつつ結果信号を単に再分配するだけの木構造に基づくロールアウトに依存している。有望な代替案として、外部評価器を必要としない内在的な過程信号として、正解に対する方針の予測確率のターンごとの変化量、すなわち情報利得(IG)を利用する方法がある。しかし、RLトレーニングループ内でIG信号を活用する従来の研究は、三つの体系的な課題に直面している:異質な位置文脈に直面するターン間での正規化が個々のターンの相対的な評価を歪めうること、可変数の項を累積することでアドバンテージの大きさが軌道の深さに伴ってドリフトすること、固定されたクリップ範囲がIG信号が大きく異なるターンに対しても同一に方針更新を制御することである。本論文では、A^2TGPO(適応的ターンレベルクリッピングによるエージェンシック・ターングループ方策最適化)を提案する。この手法はIGを内在的信号として保持しつつ、その正規化、累積、消費の方法を再設計する:(i) ターングループ正規化:各(プロンプト、ターンインデックス)グループ内でIGを正規化し、各ターンが同じ相互作用深度のピアとのみ比較されるようにする;(ii) 分散再スケール割引累積:正規化された累積IGを累積項数の平方根で除算し、ターン位置を跨いでアドバンテージの大きさを比較可能に保つ;(iii) 適応的ターンレベルクリッピング:正規化されたIGに基づいて各ターンのクリップ範囲を調整し、情報量の多いターンでは更新領域を広げ、情報量の少ないターンでは狭める。

15

強化学習はLLMに長期的推論を教えられるか?表現力が鍵となる
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

強化学習(RL)は大規模言語モデル(LLM)の推論能力向上に応用されているが、タスクの難易度に伴う学習のスケーリングに関する体系的な研究は、制御可能で拡張性のある環境の不足により妨げられてきた。本研究では、難易度の二つの軸(必要な証明計画の深さ、すなわちホライズン、および基盤となる論理の表現力)を独立に制御可能な合成論理推論フレームワーク、ScaleLogicを提案する。提案フレームワークは、単純な含意のみの論理(「もし~ならば」)から、連言(「かつ」)、選言(「または」)、否定(「ではない」)、全称量化(「すべての」)を含むより表現豊かな一階述語論理に至るまで、幅広い論理体系をサポートする。このフレームワークを用いて、RLの学習計算量Tが推論深度Dに対して冪乗則(T ∝ D^γ, R² > 0.99)に従うこと、およびスケーリング指数γが論理の表現力の増加に伴って単調に1.04から2.60まで増大することを示す。下流タスクである数学および一般推論ベンチマークでは、表現力の低い設定と比較して、表現力の高い学習設定は、より大きな性能向上(最大+10.66ポイント)と、より計算効率の良い転移をもたらし、モデルの性能が「どれだけ学習したか」だけでなく、「何を学習したか」によって形成されることを実証する。さらに、この冪乗則の関係が複数のRL手法で成り立ち、カリキュラム学習に基づく訓練がスケーリング効率を大幅に改善することを示す。

16

ReflectDrive-2:強化学習に整合した離散拡散駆動のための自己編集
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

ReflectDrive-2を紹介する。これは、計画を離散軌道トークンとして表現し、並列マスク復号によって生成する、自律走行のための行動専門家を分離したマスク離散拡散プランナーである。この離散トークン空間は、軌道のその場修正を可能にする:AutoEditは、補助的なリファインメントネットワークを必要とせず、同じモデルを使用して選択されたトークンを書き換える。この能力を訓練するため、我々は2段階の手順を用いる。まず、専門家軌道に対して縦方向の進捗と横方向の方位に沿った構造を考慮した摂動を加え、モデルが元の専門家軌道を回復するように教師監督する。その後、意思決定―草案―反映の完全ロールアウトを強化学習(RL)でファインチューニングし、最終的な編集後軌道に終端の走行報酬を割り当て、政策勾配の信用を完全ロールアウトの遷移を通じて伝播させる。完全ロールアウトRLは、草案作成と編集の結合に極めて重要であることが証明された:教師監督訓練のみでは、推論時のAutoEditによるPDMS改善は最大0.3であったが、RLではその改善幅が1.9に増加した。また、意思決定―草案―反映パイプライン向けに、効率的な反映的復号スタックを共同設計した。これは、共有プレフィックスKV再利用、交互ステップ復号、およびオンデバイスでの融合アンマスキングを組み合わせたものである。NAVSIMにおいて、ReflectDrive-2はカメラのみの入力で91.0 PDMS、ベストオブ6のオラクル設定では94.8 PDMSを達成し、NVIDIA Thor上で平均31.8 msのレイテンシで動作する。

17

TabEmbed: 表データ理解のための汎用埋め込みのベンチマーキングと学習
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

ファウンデーションモデルは自然言語処理において統一的な表現を確立してきたが、このパラダイムは表形式データにおいては未だほとんど探求されていない。既存手法は根本的な限界に直面している:LLMベースのアプローチは検索互換のベクトル出力を欠き、一方でテキスト埋め込みモデルは表構造や数値的意味論を十分に捉えられないことが多い。この隔たりを埋めるため、我々はまず、埋め込みモデルの表形式データ理解能力を評価する包括的ベンチマークスイートであるTabular Embedding Benchmark(TabBench)を提案する。次に、表形式分類と検索を共有の埋め込み空間内で統一する、初の汎用埋め込みモデルTabEmbedを提案する。多様な表形式タスクを意味的マッチング問題として再定式化することで、TabEmbedはポジティブ認識型ハードネガティブマイニングを用いた大規模な対照学習により、細粒度の構造的・数値的ニュアンスを識別する。TabBenchにおける実験結果は、TabEmbedが最先端のテキスト埋め込みモデルを大幅に上回り、普遍的な表形式表現学習の新たなベースラインを確立することを示している。コードとデータセットはhttps://github.com/qiangminjie27/TabEmbed および https://huggingface.co/datasets/qiangminjie27/TabBench で公開されている。

18

UniPool: エキスパート混合モデルのためのグローバル共有エキスパートプール
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

現代のMixture-of-Experts(MoE)アーキテクチャは、専門家キャパシティを層ごとに固定的に割り当てる規則を採用している。すなわち、各Transformer層が独立した専門家セットを保有する。この慣習は、深さのスケーリングと専門家パラメータの線形的な増加を結びつけ、すべての層が分離された専門家キャパシティを必要とすると仮定する。しかし、最近の分析と我々のルーティング調査はこの割り当て規則に疑問を投げかける。複数の実用MoEモデルにおいて、深い層の学習済みtop-kルーターを一様ランダムルーティングに置き換えても、下流タスクの精度は1.0-1.6ポイントしか低下しない。この冗長性に動機づけられ、我々はUniPoolを提案する。これは、層ごとの専門家保有を、独立した層ごとのルーターがアクセスする単一の共有プールに置き換え、専門家キャパシティをグローバルなアーキテクチャ予算として扱うMoEアーキテクチャである。共有下での安定かつ均衡のとれた訓練を可能にするため、プール全体で専門家利用のバランスをとるプールレベルの補助損失を導入し、共有専門家プールへの疎でスケール安定なルーティングを提供するNormRouterを採用する。The Pileからの30Bトークンで訓練した5つのLLaMAアーキテクチャモデル規模(182M, 469M, 650M, 830M, 978Mパラメータ)において、UniPoolは対応する標準MoEベースラインよりも検証損失とパープレキシティを一貫して改善した。これらの規模全体で、UniPoolは標準MoEと比較して検証損失を最大0.0386減少させた。損失改善を超えて、我々の結果はプールサイズを深さスケーリングの明示的なハイパーパラメータとして特定する。標準の専門家パラメータ予算の41.6%-66.7%のみを使用する縮小プール版UniPoolは、テストした規模において、層単位のMoEと同等以上の性能を発揮した。これは、共有プール設計の下では、専門家パラメータが深さに比例して線形的に増加する必要はなく、準線形的に増加させても標準MoEよりも効率的かつ効果的であり続けうることを示す。さらに詳細な分析は、UniPoolの利点がより細かい粒度の専門家分解と両立することを示している。

19

SwiftI2V: 条件付きセグメント単位生成による高効率な高解像度画像-動画生成
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

高解像度画像動画変換(I2V)生成は、入力画像の細部にわたる外観詳細を保持しつつ、現実的な時間的ダイナミクスを合成することを目的とする。2K解像度ではこの課題は極めて困難となり、既存手法には以下の弱点が存在する:1)エンドツーエンドモデルはメモリ使用量と遅延が過大になりがちである;2)低解像度生成と汎用動画超解像をカスケード接続する手法では、超解像段階が入力画像を明示的条件としないため、詳細の虚構化や入力固有の局所構造からの乖離が生じやすい。これに対し、我々は高解像度I2Vに特化した効率的フレームワークSwiftI2Vを提案する。広く用いられる2段階設計に従い、まず低解像度の動き参照を生成してトークンコストを削減しモデリング負荷を軽減した後、動き誘導による強く画像条件付けされた2K合成を実行することで、制御されたオーバーヘッドで入力忠実な詳細を復元する、という効率性と忠実性のジレンマを解決する。具体的には、生成のスケーラビリティ向上のため、SwiftI2Vは条件付きセグメント単位生成(CSG)を導入して段階的トークン予算内でのセグメント単位動画合成を実現し、各セグメント内の双方向文脈相互作用によりセグメント間の一貫性と入力忠実性を向上させる。2K解像度のVBench-I2Vにおいて、SwiftI2Vはエンドツーエンドベースラインと同等の性能を達成しつつ、総GPU時間を202分の1に削減した。特に、単一のデータセンターGPU(H800等)またはコンシューマーGPU(RTX 4090等)での実用的な2K I2V生成を可能とする。

20

AI共同数学者:エージェント型AIによる数学者の加速化
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

AI共同数学者を紹介する。これは数学者がAIエージェントと対話的に協働し、未解決問題の研究に取り組むための作業環境である。AI共同数学者は、数学的研究ワークフローの探求的・反復的な性質(アイデア創出、文献検索、計算的探求、定理証明、理論構築を含む)を包括的に支援するよう最適化されている。不確実性を管理し、ユーザーの意図を精緻化し、失敗した仮説を追跡し、標準的な数学的成果物を出力する非同期の状態保持ワークスペースを提供することで、本システムは人間同士の協働ワークフローを模倣する。初期テストでは、AI共同数学者は研究者が未解決問題を解決し、新たな研究方向を特定し、見過ごされていた文献参照を発見するのに貢献した。AI支援による数学的発見に対する高度にインタラクティブなパラダイムを示すだけでなく、AI共同数学者は困難な問題解決ベンチマークにおいても最先端の結果を達成している。特にFrontierMath Tier 4で48%というスコアを記録し、評価対象となった全AIシステムの中で新たな最高得点を獲得した。

21

RemoteZero: 人間による注釈を一切用いない地理空間推論
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

地理空間推論は、地球観測において複雑な空間意味論とユーザ意図を精密な対象位置へと解決することをモデルに要求する。近年の進展により、推論経路は人手による選定から解放され、モデル自身が推論連鎖を生成できるようになった。しかし最終的な依存関係は残されている:それらは依然として人手で注釈付けされた正解座標による教師監督を受けている。これにより推論プロセスは自律的であるが、その空間的終点は自律しておらず、豊富なラベルなしリモートセンシングデータにおける真の自己進化を妨げている。このボトルネックを打破するため、我々はバウンディングボックス監督を不要とする地理空間推論フレームワーク、RemoteZeroを提案する。RemoteZeroは単純な非対称性に動機づけられている:MLLM(大規模言語モデル)は、一般的に、精密な座標を直接生成するよりも、ある領域が問い合わせを満たすかどうかを検証する方が得意である。このより強力な識別能力を活用し、RemoteZeroは幾何学的な監督を内在的な意味論的検証に置き換え、バウンディングボックス注釈なしでのGRPO(Geospatial Reasoning from Partial Observations)学習を可能にする。結果として得られるフレームワークは反復的な自己進化をさらに支援し、モデルがラベルなしリモートセンシング画像から自身の検証信号を通じて改善することを可能にする。実験により、RemoteZeroが強力な教師あり手法と同等の性能を達成することが示され、地理空間推論位置特定のための自己検証型学習の可能性が実証された。

22

粒度軸:言語モデルにおける社会的役割の微視的から巨視的への潜在的方向性
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

大規模言語モデル(LLM)は、個人から機関に至るまでの社会的役割を担うよう日常的にプロンプト入力されているが、その内部表現が、ミクロレベルな個人の経験からマクロレベルな組織・制度・国家の推論に至るような、こうした役割の粒度をどこまで符号化しているかは明らかでない。我々は、それが符号化されていることを示す。我々は、平均的なマクロ役割とミクロ役割の隠れ状態の差として、対比に基づく粒度軸を定義する。Qwen3-8Bにおいて、この軸は役割表現空間の第一主成分(PC1)とコサイン類似度0.972で一致し、その分散の52.6%を説明する。これは、粒度がプロンプトによって与えられた社会的役割を構造化する支配的な幾何学的軸であることを示唆している。我々は5つの粒度レベルにわたって75の社会的役割を構築し、共通の質問とプロンプト変種に対して91,200の役割条件付き応答を収集した。その後、役労レベルの隠れ状態を抽出し、これを軸上に射影した。役割の射影値は5つのレベル全てで単調増加し、層、プロンプト変種、端点の定義、ホールドアウト分割、スコアフィルタリングされた部分集合において安定しており、Llama-3.1-8B-Instructへも転移した。この軸は因果的関連性も有する:軸に沿った活性化ステアリングにより、応答の粒度は予測された方向にシフトし、局所的な応答が可能なプロンプトに対して正のステアリングを施した場合、Llamaは5段階のマクロ尺度で2.00から3.17へと移動した。二つのモデルは制御可能性において異なり、ステアリングが各モデルのデフォルトの動作レジームに依存することを示唆している。全体として、我々の発見は、社会的役割の粒度が単なる表面的な様式的特徴ではなく、役割条件付き言語モデルの振る舞いにおいて、構造化され、順序付けられ、因果的に操作可能な潜在的方向であることを示唆している。

23

EMO: 創発的モジュール性のためのエキスパート混合事前学習
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

大規模言語モデルは通常、モノリシックなシステムとしてデプロイされ、アプリケーションがコード、数学、ドメイン固有知識など、能力のごく一部のみを必要とする場合でもモデル全体を必要とする。Mixture of Experts(MoE)は、入力ごとに専門家の一部のみを活性化することで、一見すると代替手段となり得るように思われる。しかし実際には、特定のドメインに対して推論を専門家のサブセットに制限すると、性能が大幅に低下する。このため、特にモデルが大規模化・疎化するにつれ、メモリ制約の厳しい環境での実用性が制限されている。本研究では、モジュール性(専門家サブセットの独立した利用と構成)を目的とし、人間が定義した事前情報を必要としないMoEであるEMOを提案する。我々の核心的なアイデアは、類似したドメインに属するトークンが、類似した専門家群に依存するよう促すことである。文書内のトークンは同じドメインを共有することが多いため、EMOはこれらを共通の専門家プールから選択するように制限しつつ、異なる文書が異なるプールを使用できるようにする。この単純な制約により、文書境界のみを用いた事前学習中に、首尾一貫した専門家のグループ化が自然に発生する。我々は、活性化パラメータ1B、総パラメータ14BのEMOを1兆トークンで事前学習した。モデル全体としては標準的なMoEの性能と同等である。重要な点は、専門家を選択的に利用できることである。専門家の25%(12.5%)のみを保持した場合、絶対精度でわずか1%(3%)の低下に留まるのに対し、標準的なMoEは同じ設定では機能しなくなる。さらに、EMOにおける専門家サブセットは、標準的なMoEで観察される低次元の構文特化とは対照的に、数学やコードなどのドメインといった意味的なレベルで特化していることを明らかにした。総合的に、我々の結果は、大規模疎モデルのモジュール化されメモリ効率の良いデプロイメントへの道筋を示し、構成可能なアーキテクチャの新たな可能性を開くものである。

24

データ制約下でのトレーニングに関する規範的スケーリング則
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

学習用計算リソースが高品質データの利用可能性を急速に上回りつつある。この状況は、最適な計算リソース配分という課題から、限られたデータから最大の価値を引き出すという核心的課題へと焦点を移行させている。広く採用されているChinchillaスケーリング則は、すべての訓練トークンが一意であることを前提としている。この前提は、データが制約された環境での事前学習戦略を導く上で、その有用性を制限する。本研究では、データ繰り返し時の過剰損失を、単純な加法的過学習ペナルティとしてモデル化し、これがモデルの振る舞いを正確に記述することを明らかにする。我々の提案するスケーリング則は、質的に新しい計算最適配分の指針を提供する。ある時点を超えると、さらなるデータ繰り返しは非生産的となり、計算リソースはモデル容量の拡大に振り向ける方が効果的である。我々の則が推奨する設定に従うことで、データ制約環境下での性能が向上することを実証する。最後に、我々の単一パラメータからなる定式化は過学習を一つの係数に分離するため、異なる訓練設定間の直接比較を可能にする。事例研究として、強い重み減衰(λ=1.0)がこの係数を約70%減少させることを示し、データ制約環境下での最適な重み減衰が標準的な実践よりも一桁大きいという最近の知見を、スケーリング則の観点から説明する。

25

KernelBench-X: LLM生成GPUカーネル評価のための包括的ベンチマーク
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

LLMベースのTritonカーネル生成は大きな関心を集めているが、根本的な実証的な疑問が未解決のまま残されている:この能力はどこで、なぜ破綻するのか?本論文では、この疑問に答えるために設計されたベンチマークKernelBench-Xを提案する。15カテゴリ・176タスクにおける正しさとハードウェア効率のカテゴリを考慮した評価を通じて検証する。5つの代表的手法の体系的な比較から、3つの主要な知見を得た。第一に、タスク構造は手法設計以上に正しさを決定する。カテゴリは、意味的正しさにおける分散の説明率が手法(3.3%)の約3倍(9.4%)に達し、全ての5手法でFusionタスクの72%が失敗する一方、Mathタスクは一貫して解決される。第二に、反復的な改良は正しさを向上させるが、性能は向上させない。GEAKの反復において、コンパイル成功率は52.3%から68.8%に上昇するが、平均高速化率は1.58倍から1.44倍に低下する。新たに救済されたカーネルは、一貫して正しいカーネルよりも一貫して低性能である(反復0→1での高速化率1.16倍 vs 1.58倍)。第三に、正しさは効率性を意味しない。正しいカーネルの46.6%がPyTorch eagerベースラインよりも遅く、ハードウェア間での高速化率の分散は21.4倍に達する。さらに、量子化は非自明なコンパイル成功率にもかかわらず完全に未解決(成功0/30)であり、表面的な構文エラーではなく、数値計算の契約に対する体系的な誤解を明らかにしている。これらの知見は、今後の進展には、大域的な協調の処理、数値精度の明示的なモデリング、およびハードウェア効率性の生成への組み込みが不可欠であることを示唆する。コードはhttps://github.com/BonnieW05/KernelBenchX で公開されている。

26

均衡的な集約:GRPOにおける集約バイアスの理解と修正
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルの推論およびコード生成能力を向上させる中心的なパラダイムとなっており、GRPOスタイルの訓練はその簡潔さと有効性から広く採用されている。しかし、重要な設計選択として、各サンプリンググループ内でトークンレベルの方策勾配項をどのように集約するかについては未解明のままである。標準的なGRPOはシーケンス集約を使用するが、近年の研究ではより優れた代替案としてトークン集約が提唱されている。本論文では、これら二つの規則が異なる最適化バイアスを誘導することを示す:トークン集約は符号-長度連関を導入する一方、シーケンス集約はシーケンスレベルの均等重み付けを通じて長い応答を暗黙的に軽視する。この対立を解決するため、我々はBalanced Aggregation(BA)を提案する。これは、正例サブセットと負例サブセット内でトークンレベルの平均値を個別に計算し、それらをシーケンス数に基づく重みで結合する簡易なドロップイン代替手法である。Qwen2.5-Math-7BおよびQwen3-1.7Bを用い、DAPO-17kとPolarisで訓練し、6つの推論およびコーディングベンチマークで評価した実験結果は、BAが標準的なトークン集約およびシーケンス集約と比較して、訓練の安定性と最終性能を一貫して向上させることを示している。我々の分析はさらに、トークン集約とシーケンス集約の相対的有効性が、応答長の変動と正例-負例間の長度差によって大きく支配されることを明らかにし、集約方法がGRPOスタイルRLVRにおける重要な設計次元であることを浮き彫りにしている。

27

トランスフォーマーにおける暗黙的演繹推論のスケーリング特性
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

我々は、深さに制限のあるTransformerにおけるホーン節の暗黙的演繹推論のスケーリング特性を調査する。証明可能性と擬似的な特徴量の相関を体系的に除去し、アルゴリズム的アラインメントを強化することにより、双方向プレフィックスマスクを備えた十分に深いモデルでは、暗黙的推論がグラフトポロジーと問題幅にわたって明示的なCoT(連鎖思考)性能に接近することを見出した。ただし、深さ方向への外挿にはCoTが依然として必要である。

28

GeoStack: VLMにおける準アーベル的知識合成のフレームワーク
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

本論文では、視覚言語モデル(VLM)における知識合成の課題に取り組む。複数領域やタスクにわたる専門知識の蓄積は、一般的に破滅的忘却を引き起こす。我々は、独立して訓練された領域専門家を単一のモデルに統合するモジュール型フレームワークであるGeoStack(Geometric Stacking)を提案する。アダプタ多様体に幾何学的・構造的制約を課すことで、GeoStackはベースモデルの基礎知識が保持されることを保証する。さらに、統合する専門家の数に関わらず、一定時間(O(1))の推論複雑性を達成する重畳折りたたみ特性を数学的に示す。複数領域適応とクラス増分学習における実験結果から、GeoStackが破滅的忘却を大幅に軽減しつつ、長期的な知識合成の効率的なメカニズムを提供することが示された。コードはhttps://github.com/QuantitativeImagingLaboratory/GeoStack で公開されている。

29

ベンチマーク不在時の検証:正解ラベルを用いない比較的LLM安全性スコアリングの妥当性確認
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

多くの導入事例では、関連する言語、セクター、規制体制に対してラベル付けされたベンチマークが存在しない段階で、候補となる言語モデルの安全性を比較検討する必要がある。我々はこの設定を、**ベンチマークレス比較安全性評価**として形式化し、シナリオベースの監査が導入の証拠として解釈され得る契約条件を特定する。評価値は、固定されたシナリオパック、評価基準、監査者、判定者、サンプリング設定、再実行予算の下でのみ有効である。ラベルが利用できないため、我々は正解データとの一致を、**手段的妥当性の連鎖**で置き換える。すなわち、制御された安全版対破壊版の対照への応答性、対象モデルに起因する分散が監査者や判定者の人為的要素による分散を上回ること、そして再実行間での安定性である。 我々はこの連鎖を、ローカルファーストの評価ツールである**SimpleAudit**において具体化し、ノルウェー語の安全性パックで検証する。安全版と破壊版の対象モデルはAUROC値0.89から1.00で分離され、対象モデルの同一性が分散の主要因となり(η² ≈ 0.52)、深刻度プロファイルは10回の再実行で安定する。同じ連鎖を**Petri**に適用すると、両ツールを許容することが示される。大きな差異は、この連鎖の上流、すなわち主張と契約の履行および導入への適合性の段階で生じる。ノルウェーの公共部門調達の事例では、BorealisとGemma 3を比較し、結果の証拠を実践的に示す:より安全なモデルは、シナリオカテゴリとリスク指標に依存する。したがって、評価値、対応する差分、重大率、不確実性、および使用された監査者と判定者は、単一の順位に集約されるのではなく、まとめて報告されなければならない。

30

生成的量子启发式コルモゴロフ-アルノルド固有値解法
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

高性能計算(HPC)は、古典的生成モデル、量子回路シミュレーション、選択的配置相互作用後処理を結合するスケーラブルな量子化学ワークフローにおいて、ますます重要になっている。本論文では、量子化学向けの生成的量子固有値解法(GQE)をパラメータ効率的に拡張した、生成的量子インスパイア・コルモゴロフ-アーノルド固有値解法(GQKAE)を提案する。GQKAEは、GPTスタイルの生成的固有値解法におけるパラメータ集約的なフィードフォワードネットワークコンポーネントを、ハイブリッド量子インスパイア・コルモゴロフ-アーノルドネットワークモジュールで置き換え、コンパクトなHQKANsformerバックボーンを形成する。本手法は、自己回帰的な演算子選択と量子選択的配置相互作用評価パイプラインを維持しつつ、単一量子ビットのデータ再アップロード活性化モジュールを用いて表現力豊かな非線形写像を提供する。H4、N2、LiH、C2H6、H2O、およびH2O二量体に対する数値ベンチマークにより、GQKAEがGPTベースのGQEアーキテクチャと同等の化学精度を達成しつつ、学習可能パラメータとメモリ使用量を約66%削減し、実効計算時間性能を向上させることを示す。N2やLiHなどの強相関系では、GQKAEは収束性と最終エネルギー誤差も改善する。これらの結果は、量子インスパイア・コルモゴロフ-アーノルドネットワークが、回路生成の品質を維持しつつ古典側のオーバーヘッドを削減でき、近未来量子プラットフォームにおけるHPC-量子協調設計へのスケーラブルな経路を提供することを示唆している。

31

思考し、そして採点せよ:ビデオ報酬モデリングにおける分離された推論と評価
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

近年、生成的ビデオモデルの進歩は、学習後およびテスト時スケーリングによって推進されることが増えており、これらは両方ともビデオ報酬モデル(RM)の品質に大きく依存している。理想的な報酬モデルは、多様なシナリオにおいて人間の選好と一致する正確な報酬を予測すべきである。しかし、既存のパラダイムは根本的なジレンマに直面している。識別的RMは、明示的な推論なしにマルチモーダル大規模言語モデル(MLLM)によって抽出された特徴量に直接報酬を回帰するため、ショートカット学習に陥りやすく、汎化のために大規模なデータスケーリングに強く依存する。対照的に、連鎖思考(CoT)推論を備えた生成的RMは、人間の選好の背後にある論理を内在化するために細かな意味的監督を活用するため、優れた解釈性と汎化可能性を示す。しかし、単一の自己回帰推論チェーン内で推論と採点が結合されているため、固有の最適化ボトルネックに苦しむ。 我々は、CoT推論の汎化上の利点を活用しつつ、結合された推論と採点の学習不安定性を緩和するため、学習効率が高く汎化可能なビデオ報酬モデル「DeScore」を提案する。DeScoreは分離型の「思考してから採点する」パラダイムを採用する。まずMLLMが明示的なCoTを生成し、その後、学習可能なクエリトークンと最終報酬を予測する回帰ヘッドから構成される専用の識別的採点モジュールが続く。DeScoreは2段階のフレームワークで最適化される。(1) 頑健な採点能力を確保するためのランダムマスク機構を含む識別的コールドスタート、(2) CoT推論の質を独立に洗練し最終報酬を較正する双目的強化学習段階。これにより、高品質な推論が直接的に優れたモデル性能に繋がることが保証される。

32

拡散ベースの方策における隠れた報酬の回復
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

本論文では、スカラーエネルギー関数をパラメータ化し、その勾配をデノイジング場として生成的行動モデリングと逆強化学習を統合するEnergyFlowフレームワークを提案する。最大エントロピー最適性の下で、デノイジング・スコアマッチングにより学習されたスコア関数が専門家のソフトQ関数の勾配を回復することを理論的に示し、敵対的訓練を必要としない報酬抽出を可能にする。形式的に、学習された場を保存場に制約することが仮説複雑性を低減し、分布外汎化の境界を強化することを証明する。さらに、回復された報酬の同定可能性を特徴付け、スコア推定誤差が行動選好に伝播する影響を境界付ける。実験では、EnergyFlowは様々なマニピュレーション課題において模倣性能で最先端の結果を達成するとともに、下流の強化学習において、敵対的IRL手法および尤度ベースの代替手法を上回る効果的な報酬信号を提供する。これらの結果は、有効な報酬抽出に必要な構造的制約が、同時に方策汎化にとって有益な帰納バイアスとして機能することを示す。コードはhttps://github.com/sotaagi/EnergyFlow で公開されている。

33

Sparkle: 分離されたガイダンスによる活気ある指示誘導型ビデオ背景置換の実現
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

近年、Senorita-2Mのようなオープンソースの取り組みにより、ビデオ編集は自然言語指示による操作へと進化している。しかし、現在公開されているデータセットの大半は、ローカル編集やスタイル転送に焦点を当てたものが主流であり、これらは元のシーン構造をほぼ維持するため、大規模化が比較的容易である。一方、映画制作や広告といった創造的な応用において中心的なタスクである背景置換は、正確な前景-背景の相互作用を維持しつつ、全く新しい時間的に一貫性のあるシーンを合成することを要求するため、大規模なデータ生成が格段に困難となる。その結果、高品質な訓練データの不足から、この複雑なタスクは未開拓の状態が続いている。この問題は、最先端モデル(例:Kiwi-Edit)の低い性能に如実に表れており、このタスクを含む主要なオープンソースデータセットであるOpenVE-3Mが、静的で不自然な背景を頻繁に生成する原因となっている。本論文では、この品質低下の原因を、データ合成における精密な背景ガイダンスの欠如にあると特定する。これに基づき、厳格な品質フィルタリングを施した分離方式で前景と背景のガイダンスを生成する、拡張性の高いパイプラインを設計した。このパイプラインに基づき、5つの一般的な背景変更テーマを網羅する約14万のビデオペアからなるデータセット「Sparkle」と、背景置換に特化した過去最大の評価ベンチマーク「Sparkle-Bench」を導入する。実験により、我々のデータセットおよびそれで訓練したモデルが、OpenVE-BenchとSparkle-Benchの両方において、既存の全てのベースラインを大幅に上回る性能を達成することを実証する。提案するデータセット、ベンチマーク、モデルはhttps://showlab.github.io/Sparkle/ で完全にオープンソースとして公開されている。

34

マルチモーダル領域一般化は進歩しているか?包括的ベンチマーク研究
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

マルチモーダルドメイン一般化(MMDG)のモデル頑健性向上への応用が注目を集める中、報告されている性能向上が真のアルゴリズムの進歩を反映しているのか、あるいは評価プロトコルの不一致による人為的結果なのかは未解明のままである。現状の研究は断片的で、データセット、モダリティ構成、実験設定において大きなばらつきが見られる。さらに、既存のベンチマークは行動認識に偏りがちで、入力データの破損、モダリティ欠損、モデルの信頼性といった現実世界の重要な課題が軽視されがちである。この標準化の欠如は、本分野の発展を適切に評価することを困難にしている。この問題を解決するため、我々はMMDG初の統合的かつ包括的なベンチマーク「MMDG-Bench」を提案する。本ベンチマークは、行動認識、機械故障診断、感情分析という3種類のタスクに跨る6つのデータセットを標準化し、6つのモダリティ組み合わせ、9つの代表的手法、複数の評価設定を包含する。標準的な精度評価に加え、破損データへの頑健性、モダリティ欠損状況での一般化性能、誤分類検出、分布外検出を体系的に評価する。95の異なるクロスドメインタスクにおいて合計7,402個のニューラルネットワークを学習させた大規模実験により、MMDG-Benchは以下の5つの主要な知見を得た:(1)公平な比較条件下では、近年の専門的なMMDG手法はERMベースラインと比べて僅かな改善しかもたらさない、(2)全てのデータセットまたはモダリティ組み合わせで一貫して他手法を上回る単一手法は存在しない、(3)性能上限との間に依然として大きな隔たりがあり、MMDGが未解決の課題であることを示唆する、(4)3モダリティ融合は最強の2モダリティ構成を一貫して上回るわけではない、(5)評価した全ての手法は、データ破損及びモダリティ欠損シナリオにおいて顕著な性能劣化を示し、一部の手法はモデルの信頼性をさらに損なう。

35

EDU-CIRCUIT-HW: 実世界の大学レベルのSTEM科目における学生手書き解答に対するマルチモーダル大規模言語モデルの評価
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

マルチモーダル大規模言語モデル(MLLM)は、従来の教育を革新し教師の負荷を軽減する大きな可能性を秘めている。しかし、数学公式・図解・テキスト論述が混在する学生の自由記述手書き解答を正確に解釈することは、分野特有の実践的ベンチマーク不足により重大な課題となっている。さらに現在の評価手法は、下流タスク(自動採点など)の結果に依存することが多く、認識内容の一部のみを検証するため、手書き論理構造全体のMLLM理解力を捉えられない。この課題解決のため、大学STEM科目の1,300件超の実学生手書き解答データセットEDU-CIRCUIT-HWを公開する。専門家検証済みの文字起こしデータと採点報告書を活用し、MLLMの上流(認識精度)と下流(自動採点性能)を同時評価した結果、認識内容に驚くべき規模の潜在誤りが発見され、高利害教育場面における自動採点や理解志向応用への信頼性不足が明らかになった。解決策の一案として、特定した誤りパターンを活用した認識誤りの事前検出・修正ケーススタディを提示する。最小限の人的介入(全課題の3.3%を人間採点者に振り分け、残りをGPT-5.1採点者に委託)のみで、AI採点システムの頑健性向上が可能であることを示す。コードとデータセットはGitHubリポジトリ(https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL)で公開中。

36

PianoCoRe:統合および精選されたピアノMIDIデータセット
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

楽譜と演奏が対応する記号音楽データセットは、多くの音楽情報検索(MIR)タスクにおいて不可欠である。しかし、既存のリソースは作曲家の範囲が狭い、演奏の多様性に欠ける、音符レベルのアライメントが省略されている、命名形式が一貫していない、などの課題を抱えている。本研究では、主要なオープンソースのピアノコーパスを統合・精緻化した大規模ピアノMIDIデータセット「PianoCoRe」を提案する。本データセットは、483人の作曲家による5,625曲の楽曲に対応する250,046件の演奏を含み、演奏時間の総計は21,763時間に及ぶ。PianoCoReは、様々な応用を支援するため階層化されたサブセットとして公開されている:大規模分析と事前学習向け(PianoCoRe-Cおよび重複排除済みPianoCoRe-B)から、音符レベルの楽譜アライメントを伴う表現的演奏モデリング向け(PianoCoRe-A/A*)まで。音符アライメント済みサブセットであるPianoCoRe-Aは、1,591の楽譜に対応する157,207件の演奏を提供し、現時点で最大のオープンソースコレクションである。データセットに加え、本研究の貢献は以下の通りである:(1)破損したMIDIや楽譜に類似したトランスクリプションを検出するためのMIDI品質分類器、(2)時間的アライメント誤差を除去し欠損音符を補間するアライメント精緻化パイプライン「RAScoP」。分析により、この精緻化処理が時間ノイズを低減し、テンポの外れ値を除去することが示された。さらに、PianoCoReで学習した表現的演奏生成モデルは、未加工または小規模データセットで学習したモデルと比較して、未見の楽曲に対するロバスト性の向上が確認された。PianoCoReは、次世代の表現的ピアノ演奏研究のための、すぐに利用できる基盤を提供する。

37

BioTool: 大規模言語モデルのバイオメディカル能力向上のための包括的ツール呼び出しデータセット
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

大規模言語モデル(LLM)は汎用タスクで成功を収めているものの、生物医学のような高度に専門化された領域における性能は依然として不十分である。主要な制約要因は、臨床専門家や生物医学研究者が日々の業務で頻繁に依存している生物医学ツールをLLMが効果的に活用できない点にある。近年の汎用領域におけるツール呼び出しデータセットはLLMエージェントの能力を大幅に向上させたが、生物医学領域での既存の取り組みは主に文脈内学習に依存し、モデルを少数のツール群に限定している。この課題を解決するため、我々はLLMのファインチューニング向けに設計された包括的な生物医学ツール呼び出しデータセット「BioTool」を提案する。BioToolはNCBI、Ensembl、UniProtデータベースから収集した34の高頻度使用ツールと、変異、ゲノミクス、プロテオミクス、進化、一般生物学の分野にわたる7,040件の高品質な人手検証済みクエリ-API呼び出しペアで構成される。40億パラメータのLLMをBioToolでファインチューニングした結果、生物医学ツール呼び出し性能が大幅に向上し、GPT-5.1のような最先端の商用LLMを凌駕する性能を示した。さらに、人間専門家による評価では、BioToolでファインチューニングしたツール呼び出し機能を統合することで、ツール未使用の同一LLMと比較して下流タスクの回答品質が有意に向上することが実証され、BioToolがLLMの生物医学領域能力強化に有効であることが明らかとなった。完全なデータセットと評価コードはhttps://github.com/gxx27/BioToolで公開されている。

38

TIDE: 各層が文脈下のトークンを認識する
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

我々は、あらゆる現代的大規模言語モデル(LLM)において普遍的に受け入れられながらも十分に検証されてこなかった設計上の選択、すなわち「トークンインデックスは入力埋め込み層で一度だけ参照され、その後恒久的に破棄される」という点を再検討する。この単一注入仮定は二つの構造的欠陥を引き起こす:(i) 語彙のZipf型分布に起因する稀頻出トークン問題。稀なトークンの埋め込みは、一般的なトークンと比較して累積勾配信号のごく一部しか受け取らないため、慢性的に学習不足に陥る。(ii) 文脈崩壊問題。パラメータ数が限られたモデルでは、分布的に類似したトークンが区別不能な隠れ状態に写像されてしまう。これら双方への対策として、我々はTIDEを提案する。TIDEは標準的なトランスフォーマーをEmbeddingMemoryで拡張する。これは、K個の独立したMemoryBlockからなるアンサンブルであり、トークンインデックスを文脈非依存の意味ベクトルに写像する。このベクトルは一度計算され、学習可能なnull bankを備えた深度条件付きソフトマックスルーターを介して各層に注入される。我々は、単一トークン同一性注入に伴う問題の解決および、複数の言語モデリングタスクと下流タスクにわたる性能向上において、TIDEの利点を理論的・実証的に立証する。

May 7
May 8