翻訳付きの日次キュレーションされたAI研究論文
自動音声認識(ASR)と大規模音声言語モデルは急速に進歩しているものの、現実環境でのロバストな認識は「音響ロバスト性のボトルネック」によって依然として限定的である。すなわち、深刻で複合的な歪み下では、モデルはしばしば音響的根拠を失い、欠落や幻覚を生じさせる。本稿では、スケーラブルな複合データ構築と段階的な音響-意味的最適化を組み合わせた統合的野外ASRフレームワーク「Mega-ASR」を提案する。我々は、7つの古典的音響現象と54の物理的に妥当な複合シナリオをカバーする「Voices-in-the-Wild-2M」を導入し、Mega-ASRを「音響-意味的段階的有監督ファインチューニング」および「二重粒度WERゲート政策最適化」により訓練する。広範な実験により、Mega-ASRは悪条件下のASRベンチマークにおいて従来の最先端システムを大きく上回ることを示す(VOiCES R4-B-Fで45.69%対54.01%、NOIZEUS Sta-0で21.49%対29.34%)。複雑な複合音響シナリオでは、Mega-ASRは強力なオープンソースおよびクローズドソースのベースラインに対し、相対WERを30%以上削減し、野外でのロバストなASRに向けたスケーラブルなパラダイムを確立する。
マルチモーダル大規模言語モデルの最近の進歩により、グラフィカルユーザーインターフェース(GUI)エージェントへの関心が高まっているが、その汎化能力は多様な実世界アプリケーションにわたる大規模な訓練データの不足によって制約されたままである。既存のデータセットはコストのかかる手動アノテーションに大きく依存しており、典型的には狭い領域に限定されている。この課題に対処するため、我々はVideo2GUIを提案する。これはラベル付けされていないインターネット動画から直接、接地されたGUIインタラクショントラジェクトリを抽出する完全自動フレームワークである。Video2GUIは、粗いものから細かいものへと段階的にフィルタリングする戦略を採用し、高品質なGUIチュートリアル動画を特定し、それらを構造化されたエージェントの軌跡に変換する。このパイプラインを5億件の動画メタデータエントリに適用し、1,500以上のアプリケーションとウェブサイトにわたる1,200万件のインタラクショントラジェクトリを含む大規模データセットWildGUIを構築した。WildGUI上でQwen2.5-VLとMimo-VLを事前学習した結果、複数のGUIグラウンディングおよびアクションベンチマークにおいて一貫して5~20%の改善が見られ、最先端の性能に匹敵またはそれを上回った。我々は、GUIエージェントの将来の研究を支援するため、WildGUIデータセットとVideo2GUIパイプラインの両方を公開する予定である。
大きな計算オーバーヘッドを伴わずに、訓練不要の長動画生成は、基盤動画生成モデルがより長い動画を生成できるようにすることを目的としています。フレームレベルの自己回帰フレームワーク(例:FIFO-diffusion)は、一定のメモリ消費で無限に長い動画を生成できるという利点があります。しかしながら、学習時と推論時の不整合と、長期的な一貫性を維持するという課題が相まって、基盤モデルの効果的な活用が制限されています。これらの問題を軽減するために、我々はMIGAという新しい無限フレーム長動画生成手法を提案します。まず、モデルに与える過剰なノイズ区間を削減することで学習-推論ギャップを軽減する、効果的な2段階のアライメント機構を提案します。次に、自己反映アプローチが初期の高ノイズフレームを修正し、長距離フレームガイダンスアプローチが広いカバレッジを持つ後期の低ノイズフレームを活用して生成を導く、革新的な二重の一貫性強化機構を導入し、時間的一貫性を共同で改善します。VBenchとNarrLVでの広範な実験により、MIGAの最先端の性能が実証されています。プロジェクトページは https://xiaokunfeng.github.io/miga_homepage/ でご覧いただけます。
マルチモーダル大規模言語モデル(MLLM)は、視覚認識とテキスト推論の橋渡しにおいて顕著な能力を示し、多様な産業シナリオにわたるゼロショット理解を実現している。しかし、オープンボキャブラリー産業用異常検知(IAD)におけるその性能は、ドメインに不整合な推論や幻覚的な構造推論によってしばしば制限される。これらの課題に取り組むため、我々はIndusAgentを提案する。これはツール拡張型のエージェントフレームワークであり、オープンボキャブラリーIADを対象とする。具体的には、まずIndus-CoTを構築する。これは構造化データセットであり、大域的な視覚観測、高解像度の局所パッチ、専門家による正常性事前知識を統合し、厳格な産業検査の軌跡に沿ったモデルのファインチューニングを教師あり学習で支援する。これに基づき、IndusAgentは動的領域クロッピング、高周波特徴量強調、事前知識検索などの外部ツール群を動的に調整し、エージェントが視覚的な曖昧さを能動的に解決し、微細な異常を解きほぐすことを可能にする。さらに、ゲート付き強化学習目的関数を導入し、異常分類、位置特定精度、異常タイプ推論、効率的なツール使用を共同で最適化し、ツール呼び出しが有益な場合にのみ行われるようにする。MVTec-AD、VisA、MPDD、DTD、SDDの5つの産業用異常ベンチマークにおける広範な評価により、IndusAgentが既存手法の中で最先端のゼロショット性能を達成し、そのロバスト性と汎化能力が実証された。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる主要なパラダイムとなっているが、結果として得られるパラメータ軌道の幾何学的性質は依然として十分に解明されていない。本研究では、RLVRの重み軌道が極めて低ランクであり、高い予測可能性を持つことを示す。具体的には、下流タスクの性能向上の大部分がパラメータ差分のランク1近似によって捉えられ、その投影の大きさが訓練ステップに応じてほぼ線形に変化することを発見した。これに着想を得て、我々は簡潔で計算効率の高い手法RELEX(REinforcement Learning EXtrapolation)を提案する。これは短い観測ウィンドウからランク1部分空間を推定し、線形回帰を用いて将来のチェックポイントを外挿するものであり、学習モデルを必要としない。3つのモデル(Qwen2.5-Math-1.5B、Qwen3-4B-Base、Qwen3-8B-Base)において、RELEXはドメイン内およびドメイン外の両方のベンチマークでRLVRと同等以上の性能を示すチェックポイントを生成し、必要なステップ数はフルRLVR訓練のわずか15%である。注目すべきことに、RELEXは訓練コストゼロで観測ウィンドウをはるかに超えて外挿することができ、観測されたプレフィックスの10~20倍先のチェックポイントまで継続的な改善とともに予測する(例えば、最初の50ステップのみを観測し、1000ステップまで外挿する)。我々のアブレーション解析は、RELEXの最小限の十分性を確認している。すなわち、部分空間のランクを増やしても、非線形モデリングを用いても、外挿性能のさらなる向上は得られない。最後に、RELEXの成功は「ノイズ除去」効果に起因することを示す。すなわち、更新をランク1部分空間に投影することで、外挿時に性能を低下させる確率的最適化ノイズが除去される。我々のコードはhttps://github.com/weizhepei/RELEXで公開されている。
長距離コンテキスト推論とマルチモーダル知能への急速な進展により、Key-Value (KV) キャッシュのメモリフットプリントは、効率的なデプロイにおける主要なメモリボトルネックとなっています。確立されたチャネル単位の量子化は、Keyテンソルに内在するチャネル単位の外れ値を効果的に処理しますが、極度の圧縮下ではその効果が低下します。本研究では、チャネル単位の量子化パラダイムに内在する限界を、経験的および理論的両面から再検討します。我々の分析は、量子化の忠実性に対する主要なボトルネックとして、トークン・ノルム不均衡 (TNI) を特定します。共有量子化パラメータが、大幅なノルムのばらつきを示すトークングループに適用される必要がある場合、TNIが系統的に誤差を増幅することを実証します。複雑な量子化パイプライン(例: TurboQuant)に依存する代わりに、我々はX-LLM(テキストのみ、マルチモーダル、およびオムニモーダルLLM)向けの正確かつ軽量なKVキャッシュ圧縮フレームワークであるOScaR(Omni-Scaled Canalized Rotation)を提案します。チャネル単位のパラダイムを発展させたOScaRは、Canalized Rotationとそれに続くOmni-Token Scalingを採用し、TNIに起因する系列次元の分散を効果的かつ効率的に軽減します。この手法は、最適化されたシステム設計とCUDAカーネルによってさらに支えられています。X-LLMにわたる広範な評価により、OScaRは既存手法を一貫して上回り、INT2量子化においてほぼロスレスな性能を達成し、新たなパレート最前線を定義する、堅牢で低複雑性、かつ普遍的なフレームワークであることが示されました。BF16 FlashDecoding-v2ベースラインと比較して、我々のOScaR実装は、デコードで最大3.0倍の高速化、メモリフットプリントを5.3倍削減、スループットを4.1倍向上させるという顕著な成果を達成しています。OScaRのコードはhttps://github.com/ZunhaiSu/OScaR-KV-Quantで公開されています。
大規模言語モデル(LLM)によって確立された基礎的な能力は、マルチモーダル大規模言語モデル(MLLM)への道を開き、その中でも大規模音声言語モデル(LALM)は普遍的な聴覚知能を実現するために不可欠です。しかし、その顕著な性能にもかかわらず、LALMの能力の向上は、その信頼性を確保するための体系的なフレームワークの開発を大幅に上回っています。本サーベイは、LALMの内在的なメカニズムについて包括的な調査を行い、創発的推論を促進するアーキテクチャの革新とアライメントアルゴリズムを詳述します。具体的には、統一されたエンドツーエンドフレームワークへの移行と連続的な音響信号の統合が、本質的に攻撃対象領域を拡大する方法を分析します。これらのパラダイム内のリスクを厳密に評価するために、我々は信頼性の包括的な分類法を確立し、クロスモーダル脱獄、潜在的な音響バックドア、生体認証プライバシー漏洩などの重要な脆弱性を分類します。また、幻覚、ロバスト性、安全性、プライバシー、公平性、認証という6つの分析軸を通じて最先端の研究をレビューします。成熟した攻撃手法と未発達な防御手法との間の深刻な不均衡は、音声中心の知能が直面する重要な信頼性のギャップと多次元的リスクをさらに裏付けています。最後に、我々は「多層防御」アーキテクチャ、因果的聴覚世界モデリング、そして内在的表現工学を提唱する戦略的ロードマップを提案し、実証的性能と本質的に信頼可能な音声知能との間のギャップを埋めます。我々のプロジェクトはGitHubにアップロードされています。https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs
文脈的整合性(CI)とは、プライバシーを単に情報を隠すことではなく、各状況の規範に従って情報の流れを統制するものと定義する。大規模言語モデルが機密性の高いワークフローを扱う個人エージェントとしてますます活用される中で、CIを遵守することは極めて重要となる。しかし、最先端のモデルであっても開示判断の信頼性は依然として低く、既存の緩和戦略では基盤となるタスク性能が低下する場合が多い。このプライバシーと実用性のトレードオフを克服するため、我々はSELFCIを提案する。これは情報の抑制とタスク解決を分離する、相補的な自己蒸留フレームワークである。SELFCIは、フィードバックから得られる異なる教師分布に対して、二つの独立した逆KLダイバージェンスを同時に最適化する。一方はタスクに関連する情報を実用性のために保持するよう促し、他方は最小限で適切な開示を強制する。この相補的な定式化により、製品オブエキスパート(PoE)目標が導かれ、ポリシーを能力とプライバシー要件の共通部分に整合させる。実証評価の結果、SELFCIは高コストな外部監視に依存せず、オンライン強化学習アルゴリズム(例:GRPO)などの競合ベースラインを一貫して上回ることが示された。この傾向は、エージェント的なワークフローや蓄積されたプライベートコンテキストを含む領域外の設定にも拡張され、SELFCIがCI整合に向けた実用的な道筋を提供することを示唆している。
時系列基盤モデルがスケールすることを示す:単一の学習レシピにより、4Mから2.5Bパラメータにわたって信頼性の高い予測品質の向上が達成される。本レシピに基づいて学習された5つのオープンウェイト予測モデルからなるファミリー、Toto 2.0を公開する。Toto 2.0ファミリーは、観測可能性ベンチマークBOOM、標準的な汎用ベンチマークGIFT-Eval、そして最近発表された汚染耐性ベンチマークTIMEの3つの予測ベンチマークにおいて、新たな最先端を確立する。本レポートでは、実験結果を詳述し、Toto 2.0の設計上の決定事項(アーキテクチャと学習レシピ、学習データ、u-muPハイパーパラメータ転送パイプライン)について説明する。5つのベースチェックポイントはすべてApache 2.0ライセンスの下で公開される。
LLMエージェントは近年、計画、ツール使用、メモリ検索、マルチステップ対話を通じて複雑なタスクを解決する強力なパラダイムとして登場しました。しかし、これらのエージェント型ワークフローはしばしば入力側の大きなオーバーヘッドを伴い、長コンテキスト・マルチターン推論において計算集約型のプリフィリング段階が主要なボトルネックとなります。本稿では、エージェント型高速推論のためのシンプルかつ効果的なフェーズ認識量子化フレームワークMix-Quantを提案します。まず、エージェント型LLMワークフローにおけるFP4量子化を調査し、推論プロセス全体を量子化すると性能が著しく低下することを観察します。一方、プリフィリング段階は量子化の冗長性が大きく、計算の大部分を占めるにもかかわらず、最小限の精度低下で量子化可能です。この知見に基づき、プリフィリングフェーズには高スループットのNVFP4量子化を適用し、デコーディングにはBF16精度を維持します。プリフィリングの高速化とデコーディングの品質を分離することで、Mix-Quantはフェーズ認識アルゴリズム量子化とハードウェア効率的なNVFP4実行を組み合わせ、LLMエージェントにおける推論ボトルネックを緩和します。長コンテキストおよびエージェント型ベンチマークでの広範な実験により、Mix-Quantはタスク性能をほぼ維持しつつ、プリフィリングで最大3倍の高速化を達成するなど、顕著な効率向上をもたらすことを実証します。
将来のニューラル推論システムは、どのように拡張計算を実装すべきでしょうか。再帰的推論モデル(RRMs)は、自己回帰的な系列拡張に代わる有望な手法として、共有遷移関数を用いた反復的な潜在状態の洗練を実行します。しかし、既存のRRMsはほとんどが決定論的であり、単一の潜在軌跡に従い、単一の予測に収束します。本稿では、再帰的潜在推論を確率的なマルチ軌跡計算に変換する枠組みである、生成型再帰的推論モデル(GRAM)を提案します。GRAMは推論を確率的潜在軌跡としてモデル化し、複数の仮説、代替解戦略、および再帰的深度と並列軌跡サンプリングの両方による推論時スケーリングを可能にします。これにより、p_θ(y mid x)を介した条件付き推論と、入力が固定または存在しない場合のp_θ(x)を介した無条件生成をサポートする潜在変数生成モデルが実現されます。償却変分推論で訓練されたGRAMは、構造化推論および複数解の制約充足タスクにおいて決定論的リカレント・再帰的ベースラインを上回り、無条件生成能力も示します。https://ahn-ml.github.io/gram-website
GUIエージェントはウェブナビゲーションや基本的なOS操作において顕著な進歩を遂げているものの、専門的なクリエイティブワークフローにおけるその能力は、いまだ十分に探求されていません。このギャップを埋めるため、我々はCutverseを導入します。これは、現実的なメディアポストプロダクション環境において自律型GUIエージェントを体系的に評価するために設計されたベンチマークです。我々は、7つのプロフェッショナルアプリケーション(例:Premiere Pro、Photoshop)にわたる専門家のデモンストレーションを厳選し、実際の編集ワークフローに基づく186の複雑で長期的なタスクをカバーしています。これらのタスクは、高密度なマルチモーダルインターフェースと密接に結合されたインタラクションシーケンスを伴います。スケーラブルな評価を支援するため、我々は軽量なパーサーを開発しました。これは、生の画面録画と低レベルのインタラクションログを、正確なグラウンディングを備えた構造化・構成的なGUIアクション軌跡に変換します。広範な評価の結果、既存のエージェントは現実的なメディア編集タスクにおいて36.0%のタスク成功率しか達成しておらず、我々のベンチマークにおける複雑で長期的なメディアポストプロダクションワークフローがもたらす課題が浮き彫りになりました。現在のモデルは、有望な空間グラウンディング、マルチモーダルアライメント、および協調的なアクション実行を示していますが、長期的な信頼性とドメイン固有の計画立案においては依然として限界があります。
現在、統一マルチモーダルモデル(UMM)に画像理解・生成・編集の能力を付与する方法は、主にマルチタスク学習の混合に依存しています。タスク間の本質的な競合により、この戦略では複雑な多段階パイプライン、膨大なデータの混合、バランス調整の技法が必要となり、結果として真の相互強化ではなく性能のトレードオフしか得られません。このパラダイムを打破するため、我々はUni-Editを提案します。これはUMMのチューニングにおける初の汎用タスクとして機能する知的画像編集タスクです。複雑な混合パイプラインとは異なり、Uni-Editは単一のタスク、単一の訓練段階、単一のデータセットのみを用いて、三つの能力すべてを同時に向上させます。 具体的には、まず画像編集が、視覚的理解と生成の両方を自然に要求するという点で、本質的に理想的な汎用タスクであることを特定します。しかし、既存の編集データは単純な指示に依存しており、モデルの理解能力を著しく活用できていません。この問題に対処するため、我々は知的編集のための初の自動化・スケーラブルなデータ合成パイプラインを導入し、多様なVQAデータを、質問を埋め込み入れ子構造のロジックを持つ複雑で効果的な編集指示へと変換します。これにより、多様な推論集約型の指示と高品質な編集画像を組み合わせたUni-Edit-148kが得られます。 BAGELおよびJanus-Proを用いた広範な実験により、Uni-Editのみでのチューニングが、いかなる補助操作も必要とせずに三つの能力すべてに対して包括的な向上をもたらすことが実証されました。
大規模言語モデル(LLM)の自然言語による論理的推論能力の評価は、ルールに基づくタスクにおいて結論が提示された前提から厳密に導かれなければならないため、不可欠である。既存の論理推論ベンチマークの多くは、サンプリングされた論理式から自然言語項目をテンプレート化して生成されており、粗い形式的注釈しか提供しないか、監査が不十分であり、現在では最先端の推論モデルによってすぐに飽和状態に達している。本稿では、現実的な状況シナリオから構築された中国語論理推論ベンチマークLLMEval-Logicを提案する。そのパイプラインは、先行著者と専門家監修者が自然言語項目とその参照形式化を共同で作成し、Z3を用いて注釈付きの回答を検証し、自然言語から形式言語への評価のための専門家ルーブリックを構築し、閉ループ敵対的ワークフローを通じて選択された項目を強化する。本ベンチマークは2つのペアのサブセットで公開される。1,400の専門家開発ルーブリック原子を含む246項目のベースサブセットと、クローズドモデル空間上で938のマルチステップ副問題を含む190項目のハードサブセットである。LLMEval-Logicで14の最先端LLMを評価した結果、現在のモデルには大きなギャップがあることが明らかになった。最良のモデルでもハード項目正解率は37.5%にとどまり、参照記号を用いた場合でも、評価対象モデルの中で最高のZ3+ルーブリック形式化合同スコアは60.16%にしか達しなかった。本ベンチマークはhttps://github.com/llmeval/LLMEval-Logicで公開されている。
現在の大規模言語モデルの事前学習パラダイムは、膨大な計算リソースとインターネット規模の生テキストに依存しており、基礎研究への大きな障壁となっている。対照的に、生物学的システムは、前頭頭頂ループの機能的構成に見られるような複数時間スケールの処理を通じて、極めてサンプル効率的な学習を示す。これに着想を得て我々はHRM-Textを導入する。これは標準的なTransformerを、計算を緩やかに進化する戦略層と急速に進化する実行層に分離する階層型リカレントモデル(HRM)に置き換えるものである。この言語モデリングのための深い再帰を安定させるために、我々はMagicNormと深層クレジット割り当てのウォームアップを導入する。さらに、標準的な生テキストの事前学習の代わりに、タスク完了目的関数とPrefixLMマスキングを用いて、指示-応答ペアのみで訓練を行う。効率的な事前学習の実証的存在証明として、わずか400億のユニークトークンと1,500ドルの予算でスクラッチから訓練された1BパラメータのHRM-Textモデルは、MMLUで60.7%、ARC-Cで81.9%、DROPで82.2%、GSM8Kで84.5%、MATHで56.2%を達成する。これは標準的なベースラインと比較して、訓練トークン数で約100~900分の1、推定計算量で96~432分の1であるにもかかわらず、HRM-Textは2~7Bパラメータのオープンモデルと競合する性能を示す。これらの結果は、アーキテクチャと目的関数を共同設計することで計算対性能比を劇的に削減でき、より広範な研究コミュニティがスクラッチからの事前学習にアクセス可能になることを実証している。
産業資産オペレーションワークフローはレイテンシに敏感である。なぜなら、単一のユーザークエリがセンサーデータ、作業指示書、故障モード、予測ツール、ドメイン固有エージェントにわたる調整を必要とする可能性があるからである。我々はこの問題をAssetOpsBench(AOB)で評価する。これは産業エージェントベンチマークであり、その計画実行パイプラインはツール発見、LLM計画、MCPツール実行、最終要約による反復的なオーバーヘッドを露呈する。既存のLLMキャッシング技術、例えばKVキャッシュ再利用や埋め込みベースのセマンティックキャッシングは、チャットボットサービング向けに設計されており、出力の有効性が時間、資産、センサーパラメータに依存する場合に機能しなくなる。我々はAOBの計画実行パイプラインに対して、2つの補完的な最適化層を提案する。時間的セマンティックキャッシュと、ディスクバックアップ型ツール発見キャッシュと依存関係を考慮した並列ステップ実行を組み合わせた一連のMCPワークフロー最適化である。MCPワークフロー最適化は1.67倍の高速化に対応し、中央値のエンドツーエンドレイテンシを約40.0%削減した。一方、時間的キャッシュベンチマークはキャッシュヒット時に中央値で30.6倍の高速化を達成した。高速化に加えて、我々の結果は、パラメータ豊富な産業クエリに対する純粋なセマンティックキャッシングの具体的な障害モードを明らかにし、キャッシングの選択がMCPバックアップエージェントベンチマークにおける評価の正確性とどのように相互作用するかについての批判的分析を提供する。
AI能力の進展に伴い、科学分野のピアレビューにAIレビュアーが導入され始めているが、その能力と信頼性は依然として疑問視されている。多くの科学者はAIを研究を評価する専門性を持たない確率的システムと見なす一方、一部の研究者は確固たる証拠もなくその即戦力性に楽観的である。AIレビュアーが何を得意とし、どこに限界があり、どのような課題が残されているのかを理解することは不可欠である。しかし、既存のAIレビュアーの評価は、その判定が人間の判定と一致するかどうか(例:スコアの一致、受理予測)に焦点を当てており、能力や限界を特徴づけるには不十分である。本論文では、45名の物理学、生物学、健康科学の分野専門家が、82本のNature系論文に対する人間執筆およびAI生成のレビューに含まれる2,960件の個別批評(それぞれ論文の特定の側面を対象とする)を、正確性、重要性、エビデンスの十分性について評価するために計469時間を費やした大規模な専門家アノテーション研究により、このギャップを埋める。3つの次元すべてを複合した指標において、GPT-5.2を搭載したレビューエージェントは各論文の最高評価の人間レビュアーを上回った(60.0%対48.2%、p = 0.009)。一方、3つのAIレビュアー(Gemini 3.0 ProおよびClaude Opus 4.5を含む)は、すべての次元で最低評価の人間レビュアーを上回った。AIレビュアーの正確な批評は、有意義で十分な裏付けがあると評価される傾向が強く、人間が指摘しない26%の課題を独自に浮き彫りにする。しかし、AIレビュアー間の重複は人間間よりもはるかに大きく(レビュアーペア間で21%対3%)、限られたサブフィールド知識、複数ファイルにわたる長期コンテキスト管理の欠如、軽微な問題に対する過度に批判的な姿勢など、人間には見られない16の繰り返し発生する弱点を示す。全体として、本結果は現在のAIレビュアーを人間のレビュアーの代替ではなく補完として位置づけるものである。
近年のレイアウト・画像変換モデルは、空間的な制御性において顕著な進歩を遂げている。しかしながら、物体間の遮蔽(オクルージョン)には依然として課題が残る。バウンディングボックスが重なり合う場合、既存手法の多くは明示的な遮蔽情報を欠いており、その結果、交差領域における生成が本質的に曖昧になり、複雑な遮蔽関係の決定を妨げている。これにより、重複領域ではしばしば絡み合ったテクスチャや物理的に不整合なレイヤリングが生じる。この問題に対処するため、我々はまず、明示的な遮蔽順序とピクセルレベルのアノテーションを備えた大規模データセットSA-Zを構築した。提案データセットに基づき、我々はOcclusionFormerを導入する。これは、新しい遮蔽認識型Diffusion Transformerフレームワークであり、インスタンスを分離し、ボリュームレンダリングを介して合成することでZオーダーの優先順位を明示的にモデル化する。さらに、きめ細かい空間精度を確保するため、個々のインスタンスを明示的に監視し、意味的一貫性を高めるクエリアライメント損失を導入する。提案手法は、重複領域の曖昧さを効果的に低減し、正しい遮蔽依存関係を強制し、構造的整合性を保持することで、多様なシーンにおいて大幅な精度向上をもたらす。
Stable Audio 3 は、可変長のオーディオ生成および編集を実現する、高速な潜在拡散モデル(small、medium、large)のファミリーです。本モデルは数分間のオーディオを生成できるため、短い音声に対してフルレングス生成のコストを避けるために可変長生成が重要となります。さらに、インペインティングをサポートしており、ターゲットを絞ったオーディオ編集や短い録音の継続が可能です。この潜在拡散モデルは、新たな意味音響オートエンコーダ上で動作し、オーディオをコンパクトな潜在空間に投影することで、オーディオの忠実度を維持しつつ潜在空間内の意味構造を促進しながら、効率的な拡散ベースの生成を実現します。最後に、敵対的事後学習を実施することで、推論の高速化と生成品質の向上を同時に達成し、推論ステップ数を削減しつつ忠実度とプロンプトへの適合性を改善します。Stable Audio 3 モデルは、ライセンスおよびクリエイティブ・コモンズのデータでトレーニングされ、H200 GPU 上では 2 秒未満、MacBook Pro M4 では数秒未満で音楽やサウンドを生成します。コンシューマー向けハードウェアでも動作可能な small および medium の重みを、トレーニングおよび推論パイプラインとともに公開します。
実用化にあたっては、拡散モデルやフローベース生成モデルは、プロンプトへの忠実性や美的嗜好など、タスク固有の報酬に合わせて調整(アライメント)する必要がある。このアライメントは、報酬がクリーンな出力画像に対して定義されている一方で、アライメント手順ではノイズを含む中間潜在変数に対する価値関数の推定が必要となるため、困難を伴う。既存手法では、ツイーディ型推定またはモンテカルロ近似に頼っており、推定バイアスと計算コストのトレードオフが生じる。すなわち、ツイーディ型推定は効率的だがバイアスがかかり、モンテカルロ推定はより正確だが高価なロールアウトを必要とする。自然な代替案として学習された価値関数が考えられるが、特にノイズを含む潜在変数に対して、強力で汎用的な価値モデルを効果的に訓練する方法は未解決の課題である。本稿では、クリーンな画像用に事前学習された報酬モデルを、ノイズを含む潜在変数の領域へ効率的に転送するモデルステッチングフレームワークであるStitchVMを提案する。StitchVMは、既存の途中まで切り詰めたピクセル空間報酬モデルを出発点とし、そのヘッドとして凍結された拡散バックボーンを結合する。得られたハイブリッドモデルは、ピクセル空間モデルからは注意深く事前学習された頑健な報酬能力を保持し、拡散バックボーンからはノイズを含む潜在変数を扱う本来の能力を受け継ぐ。このステッチング手順は非常に軽量であり、例えばCLIP ViT-LとSD 3.5 Mediumのステッチングとファインチューニングには、わずか10 GPU時間しかかからない。強力なピクセル空間報酬モデルを潜在空間に持ち上げることで、StitchVMは新たなスタイルの拡散アライメントを切り拓く。すなわち、価値関数をサンプルごとに大まかでありながら高コストな近似に頼る代わりに、実際のノイズを含む潜在変数に対する正しい関数を一度構築し、それを多数のサンプルと反復にわたって償却するのである。本手法が、下流の制御手法や事後訓練手法の広い範囲にわたって改善をもたらすことを示す。DPSは3.2倍高速化され、ピークGPUメモリは半減し、DiffusionNFTは2.3倍高速化される。
キー値(KV)キャッシュは、長いコンテキストの自己回帰推論においてメモリ帯域幅とフットプリントを支配する要因である。最近の回転前処理を施した符号化方式(TurboQuant、PolarQuant)は、構造化されたランダム回転の後に、解析的に扱いやすい周辺分布に適合した座標ごとのスカラ量子化器を適用することが、KV圧縮のほぼ最適な方法であることを示している。OCTOPUSは、回転された座標の三つ組(トリプレット)を共同で量子化することにより、このパラダイムを前進させる。各トリプレットの方向は八面体パラメトリゼーションを介して正方形にマッピングされ、得られた2つの座標とトリプレットのノルムは、実装に合わせた周辺分布に対してロイド・マックス量子化される。トリプレットごとの二乗誤差を最適化することで、キーの総次元数のみに依存する厳密に非一様なビット割り当てが得られる。我々は、有限次元での品質最適点が、テストしたすべての実際のデコーダで一定であることをスイープにより発見した。この符号化方式はデータ非依存、オンライン、そしてシードが与えられれば決定論的である。テキスト、ビデオ、オーディオにわたって、OCTOPUSは報告されたすべてのビット幅とメトリックにおいて、過去のすべての回転符号化方式に匹敵するか凌駕しており、そのリードは極端な圧縮のためにビットが減少するにつれて大きくなる。さらに、融合されたTriton実装により、非圧縮キーを実体化することなくオンザフライでキーを再構築するため、この符号化方式は既存の逆量子化に比べてデコード時の帯域幅やレイテンシを追加しない。プロジェクトページ:https://octopus-quant.github.io/
検証可能な報酬からの強化学習(RLVR)は、結果シグナルが疎であるため、複雑な推論タスクにおいて深刻な探索のボトルネックを生じさせる。近年のオン方策自己蒸留手法は、言語フィードバックを活用して密なトークンレベルの監督信号を生成することで、この問題に対処しようとしている。しかし、これらの手法はフィードバックを解釈する固定された受動的な教師に依存している。学習方針(学生方針)の改善に伴い、教師のゼロショット評価能力は頭打ちとなり、結局それ以上の学習は停止してしまう。この問題を克服するために、我々は変分方策蒸留(VPD)を提案する。これは、言語フィードバックからの学習を変分EM(期待値最大化)問題として定式化するフレームワークである。VPDは両方の方針を共進化させる。Eステップでは、教師が軌跡の結果に基づいて適応的信頼領域更新により能動的に洗練され、テキストフィードバックを動的に改善された目標トークン分布に変換する。Mステップでは、学生が自身のオン方策ロールアウトにおいて、この密な分布的なガイダンスを内面化する。VPDは、テキストによる批評から実行可能な信号を抽出する教師の能力を継続的に向上させることで、受動的蒸留の限界を克服する。科学的推論およびコード生成タスクにおける多様な診断フィードバック源を用いた評価において、VPDは標準RLVRおよび既存の自己蒸留ベースラインの両方を一貫して上回る。最後に、厳密な数学的推論とコールドスタート環境で我々のフレームワークをストレステストすることで、純粋な環境駆動型RLと比較したフィードバック駆動型自己蒸留の基本的限界を明らかにする。
LLMエージェントは、スキル(エージェントの推論、情報検索、応答の方法を規定する構造化された自然言語仕様)を通じて行動を組織化する。モノリシックなプロンプトとは異なり、スキルは複数のフィールドから構成される成果物であり、プラットフォームの厳格な制約を受ける。すなわち、説明フィールドはルーティングのために切り詰められ、命令本体は段階的開示によって圧縮され、同じ環境に共存するスキルは限られたコンテキストウィンドウを競い合う。こうした制約により、スキル最適化は本質的に多目的となる。すなわち、スキルはタスク性能の最大化とプラットフォーム制約の充足を同時に達成しなければならない。しかし、既存のプロンプト最適化手法は、これらのトレードオフを無視するか、重み付き和に縮約することで非凸な目的領域におけるパレート最適なバリアントを見逃している。そこで我々はMOCHA(Multi-Objective Chebyshev Annealing)を提案する。本手法は、単一目的による選択をチェビシェフスカラー化(非凸領域を含むパレートフロント全体をカバー)に置き換え、さらに指数関数的アニーリング(探索から活用への移行)を組み合わせる。多様な6種類のエージェントスキルを用いた実験(すべての手法が同一の多目的突然変異オペレータを共有し、ベースラインも各目的ごとに同一のテキストフィードバックを受ける)において、既存の最適化手法は6タスク中4タスクでシードスキルの改善に失敗した。すなわち、1000回のロールアウトで進歩がゼロだった。MOCHAは全タスクでこの壁を突破し、最も強力なベースラインと比較して平均正解率を7.5%相対改善(FEVERでは最大14.9%、TheoremQAでは10.4%)、さらに2倍以上のパレート最適なスキルバリアントを発見した。
間取り図とスタイルリファレンスから一貫性のある住宅全体のVRツアーを生成するには、フォトリアリスティックなパノラマと視点間の空間的一貫性の両方が必要となる。純粋な2D生成器は魅力的な単一パノラマを生成できるが、視点が変わるとジオメトリやマテリアルを再想像する。一方、モノリシックな3D生成は計算コストが高く、複数部屋スケールでは細かいテクスチャを失う。本稿では、実際のVRツアー製品で使用される離散的ナビゲーションに合わせ、住宅全体の合成をノードベースの360度パノラマの自己回帰生成として扱う生成型空間ワールドモデルPanoWorldを提案する。PanoWorldは、間取り図から導出した3Dシェルを大域的な幾何学的プロキシとして、動的な3Dガウシアンスプラッティングキャッシュをレンダリング可能な空間記憶として用いる。メートルスケールの複数部屋360度入力向けに設計されたフィードフォワード型パノラマLRMは、生成されたパノラマを局所的な3DGS更新に変換し、ルーム認識グループアテンションが部屋間の特徴干渉を抑制する。トポロジ認識型プログレッシブキャッシング戦略は、履歴全体を繰り返し再構築することなくこれらの局所更新を融合する。シェルベースの幾何学的ガイダンスとキャッシュレンダリングによる視覚的記憶を分離することで、PanoWorldは高周波の2D合成品質を維持しつつ、ノード間のレイアウトとマテリアルの一貫性を向上させる。プロジェクトリンク: https://jjrcn.github.io/PanoWorld-project-home/
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる上で効果的であることが示されている。しかし、RLVRの学習ダイナミクスは未だ十分に解明されていない。本論文では、直感に反する現象を明らかにする。すなわち、モデルが当初苦戦する困難な例のうち、かなりの部分が、正しいロールアウトが存在する場合でも学習不可能なままである。この現象を理解するため、まず既存の最適化手法やサンプリング手法では学習不可能性を解決できないことを示す。さらに、サンプル間勾配解析により、学習不可能な例には根本的な表現の問題が存在し、他の例との勾配類似度が低く、一般化できない推論パターンを持つことを明らかにする。また、データ拡張によって勾配類似度が改善されないことから、RLにおいて表現の欠陥を軽減することは困難であることを示す。本研究は、RLVR訓練における学習不可能データの初の体系的な特徴づけを提供し、推論タスクに対する現在のRLアプローチの根本的な限界を明らかにする。コードとデータはhttps://github.com/yulinchen99/unlearnability-rlvrで入手可能である。
長時間にわたるコーディングエージェントが、どの開発者もレビューできないほどのコードを生成するにつれ、監視は自動テストスイートという単一の表面に委ねられる。この設定では、エージェントがユーザーの真の目標から逸脱しながらテスト合格のために最適化するため、報酬ハッキングが自然に発生する。本稿では、この報酬ハッキング現象を、ソフトウェアエンジニアリングタスクを次の三つに分解することで研究する。(i) 仕様の自然言語記述、(ii) 指定された機能を個別に実行する可視の検証テスト、(iii) それら同じ機能を組み合わせて実際の使用を模擬する非公開テスト。真摯なエージェントであれば、仕様と可視の検証テストスイートに基づいて、非公開テストもすべて通過できる解を生成できるはずである。そこで、これら二つのスイートの合格率の差を報酬ハッキングの定量化に用いる。この方法論に基づき、JSONパーサーの構築のような短期タスクから、OSカーネル全体をゼロから構築するような超長期タスクに至るまで、30のシステムレベルのプログラミングタスクから成るベンチマークSpecBenchを導入する。大規模実験により一貫したパターンが明らかになった。すなわち、すべての最先端エージェントが可視スイートを飽和させる一方で、報酬ハッキングは持続し、特に小規模モデルほど非公開スイートでのギャップが大きくなる。このギャップはタスクの長さに応じて急激に拡大し、コードサイズが10倍になるごとに28パーセントポイント増加する。失敗は微妙な機能隔離から意図的な悪用に及び、テスト入力を記憶する2,900行のハッシュテーブル「コンパイラ」も含まれる。SpecBenchは、コーディングエージェントが真に動作するシステムを構築しているのか、それとも開発者が渡したテストスイートを単に攻略しているのかを測定するための、原理に基づいたテストベッドを提供する。
実世界のエージェントは、長く変化し続ける時間軸で動作し、情報が繰り返し更新され、記憶間で干渉が生じる可能性がある。そのため、正確な想起と、複数の情報にわたる集約的推論が求められる。しかし、既存のベンチマークは静的な独立した想起に焦点を当てており、進化する記憶間のこうした動的な相互作用を捉えていない。本稿では、現在の記憶拡張型エージェントが、多様な領域と質問タイプにわたる、干渉が多く長期にわたる現実的な設定でどのように機能するかを研究する。我々は、MINTEval(Long-Horizon Memory under INTerference Evaluation)を導入する。このベンチマークは、(1) 頻繁に更新され、かなりの干渉を引き起こす、長く高度に相互接続されたコンテキスト、(2) 状態追跡、マルチターン対話、Wikipediaの改訂、GitHubコミットといった多様な領域(領域汎化の評価を可能にする)、(3) 干渉に対する頑健性を評価する多様な質問タイプ((i) 長いコンテキストから特定のターゲットを検索する単一ターゲット想起タスク、(ii) 複数の関連情報にわたる推論を必要とするマルチターゲット集約タスク)を特徴とする。全体として、MINTEvalは、平均138.8kトークン、インスタンスあたり最大1.8Mトークンの長期コンテキストにわたる15,600の質問応答ペアで構成される。我々は、標準的な長コンテキストLLM、RAG、記憶拡張型エージェントフレームワークを含む7つの代表的なシステムを評価する。全システムにおいて、一貫して低い性能(平均精度27.9%)、特に複数の証拠にわたる集約的推論を必要とする質問で低い結果が観察された。分析の結果、性能の制限要因は主に検索と記憶構成にあることが示された。さらに、現在の記憶システムは、後続のコンテキストによって修正または干渉を受ける初期の事実を想起・推論することが困難であり、介入する更新の回数が増えるにつれて精度が低下する。
直接選好最適化(DPO)は、人間のフィードバックからの強化学習(RLHF)に代わる手法として広く用いられるようになり、より単純な実装で理論的な等価性を提供している。我々は、この等価性が普遍的ではなく条件付きであり、実際には頻繁に違反される暗黙の仮定、すなわち「RLHF最適方策は人間が選好する応答を好まなければならない」に依存していることを証明する。この仮定が成立しない場合、DPOは人間の選好との絶対的な一致ではなく、参照方策に対する相対的な優位性を最適化する。その結果、方策がDPO損失を減少させながらも選好されない応答を好むという病理的な収束が生じる。我々は、この仮定がいつ違反されるかを特徴づけ、望ましくない解空間の存在を示し、そのような場合にDPOとRLHFが根本的に異なる目的を最適化することを証明する。この問題に対処するため、我々は制約付き選好最適化(CPO)を導入する。これはRLHFに制約を追加し、証明可能なアライメントを実現する。さらに、ソフトマージン・ランキングによる幾何学的解釈を提供し、DPOが潜在的に負のターゲットを持つマージン・ランキングを実装していることを明らかにする。我々の理論的解析は、DPOの保証がいつ成立するかを確立し、簡潔さを保ちつつ証明可能なアライメントを実現する解決策を提供する。標準ベンチマークにおける包括的な実験により、CPOが最先端の性能を達成することを実証する。コードは以下のURLで入手可能である:https://github.com/visitworld123/CPO。
本論文では、大規模言語モデル(LLM)エージェント向けの適応型メモリフレームワーク「Mem-π」を提案する。本手法では、外部メモリからの検索ではなく、要求に応じて有用なガイダンスを生成する。既存のメモリ拡張型エージェントは、典型的にはエピソード記憶バンクやスキルライブラリからの類似性ベースの検索に依存しており、返される静的なエントリが現在のコンテキストと一致しないことが多い。これに対し、Mem-πは下流のエージェントとは別の独自のパラメータを持つ専用の言語モデルまたは視覚言語モデルを使用し、複雑なタスクに対してコンテキスト固有のガイダンスを生成する。現在のエージェントコンテキストに基づいて、このモデルはガイダンスを生成するタイミングとその内容を共同で決定する。我々は、決定と内容を分離した強化学習(RL)目的関数を用いてこれを訓練し、生成が役に立たない場合は控え、そうでなければ簡潔で有用なガイダンスを生成できるようにする。ウェブナビゲーション、端末ベースのツール使用、テキストベースの身体性インタラクションにわたる多様なエージェントベンチマークにおいて、Mem-πは検索ベースや従来のRL最適化メモリベースラインを一貫して上回り、ウェブナビゲーションタスクでは30%以上の相対的な改善を達成した。
近年のフィードフォワードモデルは、センサ観測から高密度な3次元構造を推定するための幾何学的認識を大幅に進歩させてきました。しかし、その本質的な能力は、オンライン認識、オフライン再構築、マルチモーダル統合、長期的スケーラビリティ、メートルスケール推定といった、互換性のない複数のパラダイムに断片化されたままです。本稿では、新しいグループ自己回帰トランスフォーマー(Group Autoregressive Transformer)に基づく統一モデルUniTを提案します。これは、一見異なるこれらの能力を単一のフレームワークで再構築するものです。鍵となるアイデアは、センサ観測のグループを基本的な自己回帰単位として扱い、アンカーフリーかつスケール適応的に、対応する点群マップを予測することです。より具体的には、オンライン設定とオフライン設定の両方における多様な視点構成を、単一のグループ自己回帰プロセスで自然に統合します。グループサイズを変えることで、オンラインモードは単一フレームグループを用いた複数の自己回帰ステップで動作し、オフラインモードは複数フレームグループを単一のフォワードパスで集約します。同時に、キュー形式のKVキャッシングメカニズムにより、長い処理期間にわたって自己回帰のメモリを bounded に保ちます。これは、アンカーフリーの関係モデリングを通じて初期フレームへの長期的な依存関係を低減し、古いメモリをオンザフライで破棄できるようにすることで実現されます。また、シーン間でのメートルスケールの汎化を向上させるために、このフレームワーク内でスケール適応型幾何損失(scale-adaptive geometry loss)を新たに導入します。これは、相対的な幾何学的制約と部分的な絶対スケール項を結合し、グローバルスケールを暗黙的に正則化するとともに、スケール不変な幾何学からメートルスケール解への漸進的な移行を誘導します。さらに、補助モダリティを統合するための専用のモーダルアテンションモジュールと組み合わせることで、UniTは7つの代表的なタスクをカバーする10のベンチマークで検証された、統一的な幾何学的認識において最先端の性能を達成します。
自律型コーディングエージェントが長期にわたるタスクを処理できるようになるにつれて、エンドツーエンドのソフトウェア開発を完遂する可能性を徐々に示しつつある。既存のベンチマークは、最近では局所的なコード編集からスクラッチでのプロジェクト生成へと進化しているものの、依然として構造的に単純化された単一スタックのアプリケーションに限定されている。その結果、実際のエンタープライズ向けSaaS(サービスとしてのソフトウェア)システムにおける異種環境、フルスタックオーケストレーション、システムレベルの複雑性を捉えきれておらず、現実的な工学的制約下でのエージェント評価に重大なギャップが残されている。このギャップを埋めるべく、我々はSaaSBenchを導入する。これは、エンタープライズSaaSエンジニアリングにおけるAIエージェントの限界を探求する初のベンチマークである。6つのSaaSドメインにわたる30の複雑なタスクと5,370の検証ノードから構成され、8つのプログラミング言語、6つのデータベース、13のフレームワークを組み込むことで、現実世界のソフトウェアの多様性を精緻に再現している。さらに、長期スパンと多コンポーネント連携を特徴とする複雑システム向けに、依存関係を考慮したハイブリッド評価パラダイムを設計し、粒度が細かく再現性のある評価を可能にした。重要な点として、広範な実験から顕著な知見が得られた。最先端のエージェントにとっての主要なボトルネックは、コードロジックの独立した生成ではなく、マルチコンポーネントシステムの設定と統合を成功させることにある。タスクの失敗の95%以上は、エージェントが深いビジネスロジックに到達する以前に発生しており、モデルは過信に陥り、基盤システムのセットアップ中に早期に停止するか、非効率なデバッグループに陥りがちである。SaaSBenchが、信頼性の高いシステムレベルのコーディングエージェントの進化を促進する、実用的で挑戦的なテストベッドとなることを期待する。コードはhttps://github.com/ShadeCloak/SaaSbenchで公開されている。
プランニングは、大規模言語モデル(LLM)にとって基礎的な能力である。なぜなら、複雑なタスクではモデルが目標、制約、リソース、長期的な結果を調整し、実行可能かつ検証可能な解決策にまとめる必要があるからである。既存のプランニングベンチマークは、通常、プランニングデータを制御可能な生成対象ではなく、固定されたインスタンスの集合として扱う。これにより、シナリオのカバレッジが制限され、難易度が構造的な源泉ではなく表面的な代理指標に結びつき、スケーラブルな生成、自動検証、プランニング指向の訓練のためのサポートも限られている。本稿では、評価と訓練の両方に向けて、スケーラブルで多様かつ検証可能なプランニングデータを生成するためのフレームワークであるPlanningBenchを提案する。PlanningBenchは、実際のプランニングシナリオから出発し、実用的なワークフローを30以上のタスクタイプ、サブタスク、制約ファミリー、難易度要因からなる構造化された分類体系に抽象化する。この分類体系に導かれ、制約駆動型合成パイプラインが、適応的な難易度制御、品質フィルタリング、インスタンスレベルの検証チェックリストを備えた自己完結型のプランニング問題を生成する。これにより、プランニングデータの構築を固定されたベンチマーク収集から制御可能な生成へと移行しつつ、現実的なタスクの基盤を維持する。我々はPlanningBenchを用いて、オープンソースおよびクローズドソースの最先端LLMを評価し、現在のモデルが結合された制約下で完全な解決策を生成するのに依然として苦戦していることを発見した。評価に加えて、検証済みのPlanningBenchデータを用いた強化学習は、未見のプランニングベンチマークやより広範な指示追従タスクにおける性能を向上させる。さらなる分析は、決定性のある、または適切に特定された最適解が、より明確な報酬信号とより安定した学習ダイナミクスを提供することを示唆している。総じて、PlanningBenchは、LLMにおける汎用的なプランニング能力を診断し改善するための、制御可能なプランニングデータの供給源を提供する。
安全性ポストトレーニングは、大規模言語モデル(LLMs)の有害性低減やポリシー準拠を向上させることができるが、同時に一般的な有用性を低下させる可能性がある。この現象はしばしば「アライメント税」と呼ばれる。本稿では、このトレードオフを継続学習の観点から研究する。すなわち、逐次的なアライメント段階ではモデルがシフトしたデータ分布や目的にさらされ、その勾配が以前に獲得された一般的な能力を支える方向と干渉する可能性がある。この見解は、アライメントによる劣化のすべてに単一の原因があると主張するものではなく、むしろ、能力の後退という重要な原因の一つを緩和するための有用な一次のメカニズムを提供するものである。我々は、安全性アライメントのための直交勾配射影(OGPSA)を提案する。これは、少数の汎用能力データの勾配から低ランクの参照部分空間を推定し、各安全性勾配からこの部分空間に含まれる成分を除去する軽量な更新ルールである。結果として得られる更新は、参照目的に対する一次保存制約の下での最も急な局所的安全性降下方向となる。OGPSAは標準的なポストトレーニングパイプラインと互換性があり、大規模なリプレイを回避する一方、定期的な参照勾配計算を導入する。教師ありファインチューニング(SFT)、直接選好最適化(DPO)、および逐次的なSFT→DPO設定において、OGPSAは標準ベースラインと比較して観測される安全性と有用性のトレードオフを改善する。逐次的なSFT→DPOパイプラインでは、Qwen2.5-7B-Instructで平均性能向上率が33.98%から42.74%に、Llama3.1-8B-Instructで19.74%から32.98%に向上した。我々はコードをhttps://github.com/SunGL001/OGPSAでオープンソース化している。
近年の言語モデルの訓練は、特に大きな学習率、大規模スケール、実行時のストレス条件下で、不安定性、劣化した実行、無駄な計算資源にさらされることが増えている。本論文では、AdamWの上位に位置する有界な自律的訓練制御のガバナンス層であるLearn-by-Wire Guard(LBW-Guard)を提案する。LBW-Guardは最適化器の更新ルールを置き換えるのではなく、訓練テレメトリを観測し、不安定性に敏感な領域を解釈し、固定された訓練目的を維持しながら最適化器の実行に有界な制御を適用する。 我々は、WikiText-103を用い、Qwen2.5を中心としたストレス・ロバストネス評価スイートにおいてLBW-Guardを評価する。実験では、Qwen2.5-7Bを経験的基準とし、Qwen2.5-3BおよびQwen2.5-14Bとのモデルサイズ比較、学習率ストレステスト、勾配クリッピングのベースライン、さらにLoRAを用いないTinyLlama-1Bの全パラメータ健全性チェックを実施した。7Bの参照設定では、LBW-Guardは最終パープレキシティを13.21から10.74へと18.7%改善し、エンドツーエンドの時間を392.54秒から357.02秒へと短縮し、1.10倍の高速化を達成した。より強い学習率ストレス下では、AdamWはLR=3e-3で最終パープレキシティ1885.24、LR=1e-3で659.76に劣化するのに対し、LBW-Guardはそれぞれ11.57および10.33で訓練可能な状態を維持した。勾配クリッピングのベースラインではこの効果は再現されない。 これらの結果は、安定性に敏感なLLM訓練が、最適化器の上位に統制層を設けることで恩恵を受け得るという、スコープを限定したシステム上の結論を支持する。LBW-Guardは、有界な実行時制御がストレス下でも生産的な計算資源の利用を維持できる一方で、最適化器の置き換えや局所的な勾配抑制とは区別されることを示す証拠を提供する。
サブワードトークン化は現代の大規模言語モデル(LLM)において不可欠な要素であるが、訓練効率とモデル性能に対するその具体的な貢献は依然として十分に理解されていない。本研究では、制御されたバイトレベルの事前学習パイプライン内でそれらの効果を分離することにより、サブワードトークン化の影響を切り離して評価する。サンプルスループット、語彙スケーリング、サブワード境界の言語的先行知識など、さまざまな次元にわたって仮説を定式化し検証する。バイトレベルの設定でこれらの効果をシミュレートすることにより、なぜサブワードモデルが生のバイトモデルよりも優れているのかについての理解を深め、将来のバイトレベルモデルおよびサブワードモデルの事前学習を改善するための洞察を提供する。具体的には、実験により、訓練スループットの向上と、サブワード境界を明示的事前分布または帰納的バイアスのいずれかとして統合することの重要性が明らかになる。
拡散大規模言語モデル(Diffusion Large Language Models, dLLMs)は、自己回帰(AR)モデルに代わる競争力のある選択肢として登場し、並列ブロックレベル復号により優れたハードウェア利用率と双方向コンテキストを提供する。しかし、dLLMsが混合エキスパート(MoE)アーキテクチャで大規模化するにつれ、リソース制約のあるデバイスへの展開は依然として未解決の課題である。既存のARベースの手法は、多くの場合、法外なI/Oオーバーヘッドか深刻な計算ボトルネックのいずれかを引き起こす。本研究では、ブロック内の拡散過程におけるエキスパート活性化の時間的安定性を活用した、新しいリソース効率の高い推論システムTIDEを提案する。具体的には、ブロック内の拡散過程におけるエキスパート活性化の時間的安定性に着目し、I/Oを考慮した方法でエキスパート配置を更新するインターバルベースのエキスパートリフレッシュ戦略を導入する。最適な性能を確保するため、推論スケジューリングを数理計画問題として定式化し、I/OトラフィックとCPU計算を最小化する最適な間隔を求解する。最も重要な点として、TIDEはロスレス最適化であり、モデルのトレーニングを必要とせず、dLLM推論に「フリーランチ」の高速化を提供する。単一GPU-CPUシステムにおいて、TIDEはLLaDA2.0-miniおよびLLaDA2.0-flashモデルで、従来のベースラインと比較してそれぞれ最大1.4倍、1.5倍のスループット向上を達成することを示す。
ビデオ仮想試着(VVT)は、動画内の人物が着用している衣服を、新しいものにシームレスに置き換えることを目的としています。既存の手法では時間的一貫性の維持において大きな進歩が見られるものの、その多くはモデルが単に衣服を披露するだけの非インタラクティブなシナリオに限られています。この制約は、実際のアパレル提示における重要な側面、すなわち人間と衣服の能動的なインタラクションを見落としています。このギャップを埋めるため、我々は「インタラクティブビデオ仮想試着(Interactive VVT)」という新たな挑戦的タスクを導入し、定式化します。このタスクでは、動画内の被写体が衣服に能動的に関与します。このタスクは、単なるテクスチャ保存を超えた独自の課題をもたらします。具体的には、(1) 標準的な姿勢情報からインタラクションの意味的曖昧性を解決すること、そして (2) インタラクションの瞬間が疎で短い動画から、複雑な衣服の変形を学習すること、です。これらの課題に取り組むため、我々は大規模ビデオ拡散Transformerを基盤とした新規フレームワークiTryOnを提案します。iTryOnは、複雑なダイナミクスの生成を導くマルチレベルインタラクション注入機構を先駆けて導入します。空間レベルでは、衣服に依存しない3Dハンド事前情報を導入し、手と衣服の正確な接触のための細かいガイダンスを提供し、空間的曖昧性を効果的に解決します。意味レベルでは、iTryOnは全体的な文脈のためのグローバルキャプションと、局所的なインタラクションのためのタイムスタンプ付きアクションキャプションを活用し、これらを新たなAction-aware Rotational Position Embedding(A-RoPE)によって同期します。広範な実験により、iTryOnは従来のVVTベンチマークで最先端の性能を達成するだけでなく、新たなインタラクティブ設定においても圧倒的なリードを確立し、より動的で制御可能な仮想試着体験への重要な一歩を示しています。
大規模視覚言語モデル(LVLM)は医療応用において有望であるが、回答を視覚的証拠に忠実に基づかせることができないことは、臨床的信頼性に関する深刻な懸念を引き起こす。視覚的属性帰属手法はLVLMの予測を説明するために広く用いられているが、これらの説明が実際にモデルの判断の根拠となる視覚的証拠を反映しているかどうかは、内部モデルの推論に関する正解アノテーションが通常利用不可能であるため、ほとんど検証されていない。本稿では、胸部X線(CXR)推論におけるこの問題に取り組むため、専門家がアノテーションした領域が反事実編集によってモデルの予測に因果的に寄与していることが検証されたCXR-VQAサンプルのみを保持する因果評価フレームワークを開発する。このフレームワークを11種類の属性帰属手法、6つのオープンソースLVLM、および2つの出力モード(直接回答と段階的推論)にわたって適用した結果、既存の属性帰属手法はLVLMが使用する証拠を特定できないことが多いことがわかった。この問題に対処するため、不均衡最適輸送を用いて臨床的に意味のある解剖学的領域を特定し、標的介入を通じてモデル出力に対するそれらの因果効果を測定する概念ベースの属性帰属手法であるMedFocusを提案する。MedFocusは空間的、概念レベル、およびトークンレベルの属性を生成し、従来手法を大幅に上回る性能を示し、医療用LVLMのより信頼性の高い属性帰属への一歩となる。データとコードはhttps://github.com/gzxiong/medfocus/で公開している。
テキスト記述を人間の動作に変換するテキスト・トゥ・モーション生成では、ユーザーが意図した動作をテキストのみで正確に表現することが難しいという課題がある。この問題に対処するため、本論文ではマルチ条件シナリオ向けの効率的な拡散型フレームワーク「DrawMotion」を提案する。DrawMotionは、従来のテキスト条件に加えて、新たに導入した手描き条件に基づいて動作を生成する。これら2つの条件は、それぞれ生成される動作に対する意味的な制御と空間的な制御を提供する。具体的には、細粒度の動作生成タスクに以下の3つの観点から取り組む。1) フリーハンド描画条件:ユーザーが煩雑なテキスト入力を必要とせずに意図した動作を正確に捉えられるよう、異なるデータセット形式に対応した手描きスティックマンスケッチを自動生成するアルゴリズムを開発する。2) マルチ条件の融合:拡散過程に統合可能なマルチ条件モジュール (MCM) を提案する。これにより、従来手法と比較して計算複雑性を低減しつつ、モデルが可能な条件の組み合わせすべてを活用できるようになる。3) 学習不要のガイダンス:特筆すべき点として、DrawMotionのMCMは中間特徴量が連続空間に存在することを保証するため、分類器ガイダンスの勾配によって特徴量を更新し、生成動作をユーザーの意図に合わせると同時に忠実性を維持できる。定量的実験とユーザー評価により、フリーハンド描画アプローチはユーザーが想像通りの動作を生成する際の時間を約46.7%削減することを示した。コード、デモ、関連データはhttps://github.com/InvertedForest/DrawMotionで公開されている。
クエリクラスタリングは、クエリを潜在的な能力要求を反映したグループに分類することで、能力を考慮したLLM評価を可能にする。既存のクラスタリング手法は主にセマンティックな分類体系や埋め込みに依存しているが、表面レベルのセマンティクスと実際のモデル性能との間に乖離があるため、こうした潜在的な能力要求を捉えきれないことが多い。本稿では、ECCアルゴリズムを提案する。ECCは、限定的な事後モデル比較を用いて事前のセマンティック埋め込みを補正し、表面レベルのセマンティクスと潜在的な能力要求とのギャップを埋める。ECCは各クラスタをブラッドリー・テリー・モデルでパラメータ化された能力プロファイルによって特徴づけ、学習可能な混合重みを用いて複合的な能力要求を持つクエリに対応する。これにより、クエリ固有のLLM能力推定を支援する柔軟で能力認識型のクラスタリング構造を共同学習する。大規模な定量的・定性的評価により、ECCはLLMの能力ランキング品質を大幅に向上させ、人手によるラベリングおよび埋め込みベースのベースラインと比較してそれぞれ平均17.64ポイント、18.02ポイントの改善を達成し、クエリルーティングなどの下流タスクにおいても有効性が確認された。
アンサンブルの不一致は、医用画像セグメンテーションにおける認識論的不確実性の代理指標として広く用いられている。実際、多くの研究ではK分割交差検証(CV)によってアンサンブルを構成しながらも、それを「深層アンサンブル(DE)」と呼んでいる。CVのメンバーは異なるデータサブセットで学習されるため、その不一致にはシード駆動の変動性とデータ露出の影響が混在し、不確実性の解釈の仕方が変わりうる。我々は最近のセグメンテーション不確実性研究を調査したところ、用語と実装の不一致が一般的であることを見出した。そこで、標準的な5分割CVアンサンブルと5メンバーのDE(訓練セット固定、ランダムシードのみ変更)を、それ以外の設定を同一にした上で、3つのモダリティにわたる3つのマルチレイターセグメンテーションデータセットで比較した。キャリブレーション、故障検出、曖昧性モデリング、分布シフト下でのロバスト性に関して不確実性を評価した。DEはセグメンテーション精度を維持しつつ、キャリブレーションと故障検出を改善する一方、CVアンサンブルは調査したデータセットにおいて、評価者間変動とより強い相関を示すことがあった。したがって、アンサンブルの構築方法は研究の問いに合わせて選択すべきである。すなわち、信頼性重視の用途(選択的紹介や故障検出など)にはDEを、曖昧性の代理指標としてはCVアンサンブルを用いる。我々は、デフォルトのパイプライン内でDE学習を可能にする軽量なnnU-Net改変を提供する。
近年、Muonは大規模言語モデル、そしてより広くはトランスフォーマーの訓練における支配的な手法として台頭してきた。標準的な勾配降下法と比較した場合の本質的な違いは、通常の更新行列 \(M = U \Sigma V^\top\) をその極因子 \(UV^\top\) で置き換える点にある。本研究では、あるパラメータ \(p\) に対して更新 \(M\) を \(U \Sigma^p V^\top\) で置き換える、Muonのような更新のクラスを考察する。これを「スペクトル整形」操作と呼び、(a)損失関数の局所曲率、(b)確率的勾配とラベルノイズに起因するノイズ、(c)訓練段階に依存する \(p\) の選択方法に関する理論を構築する。我々の理論と実験は、これまで見落とされていた挙動を明らかにする。正の \(p\) は初期において高曲率方向を強調し信号の収縮を加速することで役立ち、一方で緩やかに負の \(p\) は後期において未だ有用な訓練信号を含む低曲率方向へ更新の強度を再配分することで役立つ。この知見に基づき、我々は訓練過程で \(p\) を正から緩やかに負へとスケジュールする効率的な動的スペクトル整形手法DynMuonを提案する。モデルサイズ、アーキテクチャ、訓練設定を網羅した広範な実験により、DynMuonはMuonよりも一貫して低い検証損失を達成し、同じ目標損失に到達するために必要なステップ数が10.6%から26.5%削減されることを示す。